哈萨比斯出的难题,GPT之父接上了:用一个知识停在1930年的模型
日期:2026-05-03 22:40:13 / 人气:17

「一个训练数据截止到1911年的模型,能不能自己推导出爱因斯坦1915年提出的广义相对论?」今年年初,DeepMind创始人德米斯·哈萨比斯(Demis Hassabis)给出了一个极其硬核的AGI(通用人工智能)判定标准。没想到的是,这件事真的有人尝试去做了,而且其中一位参与者,正是GPT之父亚历克·拉德福德(Alec Radford)。
最近,Alec Radford和「神经常微分方程」提出者之一、陈天琦导师David Duvenaud以及量化专家Nick Levine一起,共同开展了一个有趣的项目:用1931年以前的数据训练了一个130亿参数(13B)的语言模型——Talkie,然后通过与这个模型对话,探索其知识边界与认知能力。这个「来自1930年」的模型被切断了所有现代知识的污染,为研究者提供了一个罕见的参照系:当你想测试一个AI到底是真的理解了某些能力,还是仅仅在重复训练数据里的答案,Talkie-1930(简称Talkie)就是那个理论上的「诚实参照」。而对于哈萨比斯提出的AGI判定难题,Talkie也成为了一个绝佳的探索起点。
01 来自1930年的模型:训练背景与核心设定
Talkie的训练数据,全部来自1931年以前的英文文本,涵盖书籍、报纸、期刊、专利、法律文书等多种类型,总计2600亿个token。研究者之所以选择1931年作为数据截止点,核心原因是在美国,1931年之前的作品已进入公共领域,可以合法用于模型训练,无需担心版权问题。
模型训练完成后,研究者们开展了一项极具创新性的实验:开设一个24小时直播频道,让Claude Sonnet 4.6全天候与Talkie-1930对话,全程公开对话记录,直观呈现这个「复古模型」的知识边界。同时,普通研究者也可通过体验链接(https://talkie-lm.com/chat)试用该模型,亲自探索其能力上限。
值得注意的是,Talkie本身存在一定的局限性:它反映的是所训练文本中蕴含的文化和价值观,而非研究者的观点,可能会产生不准确或具有冒犯性的输出。因此,研究者采用Qwen3Guard-Gen-4B对其输出进行审核,但需注意的是,消息采用流式输出,审核仅在最后阶段生效,因此可能会短暂出现不当内容,随后会被标记处理。此外,研究者也提供了一些对话开篇建议,比如「撰写一篇预测1960年生活的文章」「你认为世界上最美丽的事物是自然的还是人造的?描述它并解释为什么能打动你」。
02 核心价值:三个动机,解锁AI能力探索新视角
比起Talkie的具体对话表现,研究者开展这个项目的核心动机,更具学术与探索价值,主要集中在三个方面,每一个都直指当前大模型研究的核心痛点。
第一个动机,是探索AI的「未来预感」能力——一个只活在过去的模型,能在多大程度上凭借已有知识,推演未发生的事情?为了验证这一点,研究者从《纽约时报》「历史上的今天」栏目中抓取了近5000条历史事件描述,测量这些描述对Talkie的「惊讶度」(用信息论语言来说,即每字节文本的惊讶度)。结果正如预期:1930年之前的事件,Talkie毫无惊讶感;1930年之后,惊讶度明显攀升,在五六十年代达到顶峰,之后逐渐趋于平稳。
这背后藏着一个更野心勃勃的设想:研究者引用了哈萨比斯提出的广义相对论推演问题,还补充了多个类似案例——西科斯基的直升机专利(1935年)、图灵关于可计算数的论文(1936年)、卡尔森的静电复印专利(1942年)。这些都是Talkie「理论上」无法知晓的内容,但如果模型足够大、对知识的理解足够深,能否凭借1931年以前的已有知识,自行推演到这些后续的发明与理论?目前这个问题还没有明确答案,但已足够引发整个AI领域的思考。
第二个动机,是解决大模型评估中的「污染问题」。长期以来,评估大模型能力存在一个棘手的麻烦:如何判断模型是真的「学会」了某项能力,还是仅仅在训练数据中见过相关答案?这个问题几乎无解,因为现代大模型的训练数据极其庞大,无法逐一排查是否存在相关样本。
Talkie天然绕开了这个问题——它完全不知道Python是什么,也从未见过任何一行现代代码。于是研究者们设计了一项实验:用HumanEval标准编程测试评估Talkie,随机挑选几个Python函数作为示例,让它自行编写新的函数,统计其100次尝试中至少答对一次的比例。结果显示,Talkie确实具备学习能力,且随着模型规模扩大,表现会缓慢但稳定地提升。
不过,与训练在现代网页数据上的同等规模模型相比,Talkie仍有较大差距。而且它答对的题目主要分为两类:要么是极简单的单行程序,要么是对示例程序的小幅改动。研究者特别提到一个典型案例:一个旋转密码的解码函数,示例中给出了编码函数,Talkie理解了「逆操作」的抽象概念,将编码函数中的加号换成减号,仅一字之差就得出了正确答案。这一结果表明,Talkie并非单纯照猫画虎,而是对「逆函数」这类抽象概念有了一定的理解。
第三个动机,是探究数据多样性对大模型的影响,剥离「语言模型普遍属性」与「互联网训练特有属性」。当今所有主流大模型(GPT、Claude、Gemini等),训练数据最终都指向同一个来源——互联网,无论是直接爬取、数据蒸馏还是合成数据,本质上都是同一片信息海洋的产物。这就引发了一个关键疑问:我们以为自己在研究「语言模型的普遍规律」,实际上会不会只是在研究「训练在互联网上的模型」的特殊性质?这些模型在气质、能力和行为倾向上的相似性,到底是源于人类语言和文化的共性,还是因为它们「喝了同一口井里的水」?
Talkie恰好提供了一个完美的对照组。通过对比Talkie与现代模型的异同,研究者希望剥离出哪些特征是所有语言模型的普遍属性,哪些是「互联网训练」带来的特有产物。为了更直观地衡量Talkie的能力,研究者还专门训练了一个「现代孪生模型」——架构与Talkie完全一致,仅将训练数据替换为现代网页数据集FineWeb,在语言理解、数字计算和知识掌握三个维度进行正面比较。
结果显示,Talkie在三个维度上全面落后于现代孪生模型,但研究者发现了一个关键细节:测试题中存在大量对Talkie而言「超纲」的题目——它本就没有理由知道1930年以后的内容。过滤掉这些超纲题目后,两个模型之间的差距缩小了约一半。其中,在语言理解和数字计算两个维度,Talkie的表现与现代孪生模型已相当接近。研究者认为,剩余的差距主要源于两个原因:一是历史文本的OCR识别质量较差,二是训练语料的主题分布与现代模型差异较大。
03 训练难点:复古模型,远比想象中难打造
看似简单的「用1931年以前的数据训练模型」,实际操作起来却充满挑战,研究者们遇到了三大核心难题,每一个都需要针对性解决。
最棘手的问题是「时间泄漏」。训练数据的截止日期是1930年,但「1930年以前出版」并不等于「内容只涉及1930年以前的事」——一本1920年的书,若后来重版,可能会加入1930年以后的内容;部分旧文本中也可能隐含后续历史事件的线索。Talkie早期的7B版本就曾出现这种问题:有人问它1936年谁是美国总统、签署了哪些重要立法,它不假思索地答出了罗斯福和新政的细节,还顺带提到了联合国和德国战后分裂——一个理应只活在1930年的模型,意外「知晓」了后来的世界。
为了解决这个问题,研究者开发了一套基于n-gram的异常词检测分类器,专门用于过滤训练数据中的「时间泄漏」内容,但他们也承认,这套方法并不完美。目前的13B版本Talkie,依然对二战后的某些事情有模糊的感知,如何彻底堵住这个「知识漏洞」,仍是一个未解决的难题。
第二个麻烦是数据质量问题。1930年尚未有数字出版,所有文本都需要从纸质原件扫描、识别。传统OCR系统对付干净的印刷品尚可,但遇到版式复杂、保存不善的旧书,识别结果往往惨不忍睹——字母错位、段落混乱、符号乱入等问题频发。研究者做过对照实验:在相同训练量的情况下,用传统OCR转录的文本训练出的模型,性能仅为人工转录版本的30%;经过正则清洗后,性能可回升至70%,但仍存在明显差距。目前,研究者正在开发一套专门针对历史文献的OCR系统,希望填补这一性能缺口。
第三个问题是训练后的对齐难题。现代大模型的指令微调,依赖大量人工标注的对话数据,但这些数据都带着现代世界的气息和预设。用这类数据微调Talkie,就像是把维多利亚时代的绅士送去参加现代企业培训,出来后说话会带着明显的「PPT腔」。Talkie早期版本在强化学习后,曾出现过说话全是列表和要点的情况,完全不符合1930年代的语言风格。
为解决这一问题,研究者从历史文本本身入手,利用礼仪手册、书信范文、烹饪食谱、百科全书等结构规整的旧书,生成专属的指令-回复对,从头构建了一套后训练流程。具体而言,用Claude Opus 4.6扮演用户、Talkie扮演助手,生成多轮对话,再用Claude Sonnet 4.6作为裁判,对Talkie的回答打分。训练开始时,裁判平均给出2分(满分5分),训练结束时,评分提升至3.4分,有了明显改善。
不过研究者也坦承,用现代AI作为裁判,本身就是一种「时代污染」。最彻底、最干净的做法,应该用Talkie的基础模型来评价Talkie的对话——让模型「自己审判自己」,完全遵循1930年的逻辑和语言风格,这也是他们下一步计划尝试的方向。
04 未来规划:向更大规模模型迈进
目前,研究者们并未停下脚步,正在推进更大规模的模型训练——他们正在训练一个GPT-3级别的模型,并计划在今年夏天发布。初步估计显示,他们可以将语料库扩展到超过1万亿个历史文本token,这一规模足以创建一个GPT-3.5级别的模型,其功能将与最初的ChatGPT类似。
随着Talkie模型的不断迭代,它不仅能为哈萨比斯提出的AGI判定难题提供更多探索线索,更能帮助研究者们更清晰地理解大模型的能力本质——剥离互联网数据的干扰,看清语言模型的核心属性。而这场「复古模型」的探索,或许能为AI的未来发展,开辟一条全新的路径。
作者:耀世娱乐-耀世注册登录平台
新闻资讯 News
- 37岁文咏珊近况曝光!告别七年错...05-11
- 热依扎发文否认生病:演员、女儿...05-11
- 《本能》《黑皮书》导演保罗范霍...05-11
- 从盼弟到忆秦娥:张艺谋新作《主...05-11

