哈萨比斯出的难题，GPT之父接上了：用一个知识停在1930年的模型

日期：2026-05-03 22:40:13 / 人气：17

「一个训练数据截止到1911年的模型，能不能自己推导出爱因斯坦1915年提出的广义相对论？」今年年初，DeepMind创始人德米斯·哈萨比斯（Demis Hassabis）给出了一个极其硬核的AGI（通用人工智能）判定标准。没想到的是，这件事真的有人尝试去做了，而且其中一位参与者，正是GPT之父亚历克·拉德福德（Alec Radford）。
最近，Alec Radford和「神经常微分方程」提出者之一、陈天琦导师David Duvenaud以及量化专家Nick Levine一起，共同开展了一个有趣的项目：用1931年以前的数据训练了一个130亿参数（13B）的语言模型——Talkie，然后通过与这个模型对话，探索其知识边界与认知能力。这个「来自1930年」的模型被切断了所有现代知识的污染，为研究者提供了一个罕见的参照系：当你想测试一个AI到底是真的理解了某些能力，还是仅仅在重复训练数据里的答案，Talkie-1930（简称Talkie）就是那个理论上的「诚实参照」。而对于哈萨比斯提出的AGI判定难题，Talkie也成为了一个绝佳的探索起点。
01 来自1930年的模型：训练背景与核心设定
Talkie的训练数据，全部来自1931年以前的英文文本，涵盖书籍、报纸、期刊、专利、法律文书等多种类型，总计2600亿个token。研究者之所以选择1931年作为数据截止点，核心原因是在美国，1931年之前的作品已进入公共领域，可以合法用于模型训练，无需担心版权问题。
模型训练完成后，研究者们开展了一项极具创新性的实验：开设一个24小时直播频道，让Claude Sonnet 4.6全天候与Talkie-1930对话，全程公开对话记录，直观呈现这个「复古模型」的知识边界。同时，普通研究者也可通过体验链接（https://talkie-lm.com/chat）试用该模型，亲自探索其能力上限。
值得注意的是，Talkie本身存在一定的局限性：它反映的是所训练文本中蕴含的文化和价值观，而非研究者的观点，可能会产生不准确或具有冒犯性的输出。因此，研究者采用Qwen3Guard-Gen-4B对其输出进行审核，但需注意的是，消息采用流式输出，审核仅在最后阶段生效，因此可能会短暂出现不当内容，随后会被标记处理。此外，研究者也提供了一些对话开篇建议，比如「撰写一篇预测1960年生活的文章」「你认为世界上最美丽的事物是自然的还是人造的？描述它并解释为什么能打动你」。
02 核心价值：三个动机，解锁AI能力探索新视角
比起Talkie的具体对话表现，研究者开展这个项目的核心动机，更具学术与探索价值，主要集中在三个方面，每一个都直指当前大模型研究的核心痛点。
第一个动机，是探索AI的「未来预感」能力——一个只活在过去的模型，能在多大程度上凭借已有知识，推演未发生的事情？为了验证这一点，研究者从《纽约时报》「历史上的今天」栏目中抓取了近5000条历史事件描述，测量这些描述对Talkie的「惊讶度」（用信息论语言来说，即每字节文本的惊讶度）。结果正如预期：1930年之前的事件，Talkie毫无惊讶感；1930年之后，惊讶度明显攀升，在五六十年代达到顶峰，之后逐渐趋于平稳。
这背后藏着一个更野心勃勃的设想：研究者引用了哈萨比斯提出的广义相对论推演问题，还补充了多个类似案例——西科斯基的直升机专利（1935年）、图灵关于可计算数的论文（1936年）、卡尔森的静电复印专利（1942年）。这些都是Talkie「理论上」无法知晓的内容，但如果模型足够大、对知识的理解足够深，能否凭借1931年以前的已有知识，自行推演到这些后续的发明与理论？目前这个问题还没有明确答案，但已足够引发整个AI领域的思考。
第二个动机，是解决大模型评估中的「污染问题」。长期以来，评估大模型能力存在一个棘手的麻烦：如何判断模型是真的「学会」了某项能力，还是仅仅在训练数据中见过相关答案？这个问题几乎无解，因为现代大模型的训练数据极其庞大，无法逐一排查是否存在相关样本。
Talkie天然绕开了这个问题——它完全不知道Python是什么，也从未见过任何一行现代代码。于是研究者们设计了一项实验：用HumanEval标准编程测试评估Talkie，随机挑选几个Python函数作为示例，让它自行编写新的函数，统计其100次尝试中至少答对一次的比例。结果显示，Talkie确实具备学习能力，且随着模型规模扩大，表现会缓慢但稳定地提升。
不过，与训练在现代网页数据上的同等规模模型相比，Talkie仍有较大差距。而且它答对的题目主要分为两类：要么是极简单的单行程序，要么是对示例程序的小幅改动。研究者特别提到一个典型案例：一个旋转密码的解码函数，示例中给出了编码函数，Talkie理解了「逆操作」的抽象概念，将编码函数中的加号换成减号，仅一字之差就得出了正确答案。这一结果表明，Talkie并非单纯照猫画虎，而是对「逆函数」这类抽象概念有了一定的理解。
第三个动机，是探究数据多样性对大模型的影响，剥离「语言模型普遍属性」与「互联网训练特有属性」。当今所有主流大模型（GPT、Claude、Gemini等），训练数据最终都指向同一个来源——互联网，无论是直接爬取、数据蒸馏还是合成数据，本质上都是同一片信息海洋的产物。这就引发了一个关键疑问：我们以为自己在研究「语言模型的普遍规律」，实际上会不会只是在研究「训练在互联网上的模型」的特殊性质？这些模型在气质、能力和行为倾向上的相似性，到底是源于人类语言和文化的共性，还是因为它们「喝了同一口井里的水」？
Talkie恰好提供了一个完美的对照组。通过对比Talkie与现代模型的异同，研究者希望剥离出哪些特征是所有语言模型的普遍属性，哪些是「互联网训练」带来的特有产物。为了更直观地衡量Talkie的能力，研究者还专门训练了一个「现代孪生模型」——架构与Talkie完全一致，仅将训练数据替换为现代网页数据集FineWeb，在语言理解、数字计算和知识掌握三个维度进行正面比较。
结果显示，Talkie在三个维度上全面落后于现代孪生模型，但研究者发现了一个关键细节：测试题中存在大量对Talkie而言「超纲」的题目——它本就没有理由知道1930年以后的内容。过滤掉这些超纲题目后，两个模型之间的差距缩小了约一半。其中，在语言理解和数字计算两个维度，Talkie的表现与现代孪生模型已相当接近。研究者认为，剩余的差距主要源于两个原因：一是历史文本的OCR识别质量较差，二是训练语料的主题分布与现代模型差异较大。
03 训练难点：复古模型，远比想象中难打造
看似简单的「用1931年以前的数据训练模型」，实际操作起来却充满挑战，研究者们遇到了三大核心难题，每一个都需要针对性解决。
最棘手的问题是「时间泄漏」。训练数据的截止日期是1930年，但「1930年以前出版」并不等于「内容只涉及1930年以前的事」——一本1920年的书，若后来重版，可能会加入1930年以后的内容；部分旧文本中也可能隐含后续历史事件的线索。Talkie早期的7B版本就曾出现这种问题：有人问它1936年谁是美国总统、签署了哪些重要立法，它不假思索地答出了罗斯福和新政的细节，还顺带提到了联合国和德国战后分裂——一个理应只活在1930年的模型，意外「知晓」了后来的世界。
为了解决这个问题，研究者开发了一套基于n-gram的异常词检测分类器，专门用于过滤训练数据中的「时间泄漏」内容，但他们也承认，这套方法并不完美。目前的13B版本Talkie，依然对二战后的某些事情有模糊的感知，如何彻底堵住这个「知识漏洞」，仍是一个未解决的难题。
第二个麻烦是数据质量问题。1930年尚未有数字出版，所有文本都需要从纸质原件扫描、识别。传统OCR系统对付干净的印刷品尚可，但遇到版式复杂、保存不善的旧书，识别结果往往惨不忍睹——字母错位、段落混乱、符号乱入等问题频发。研究者做过对照实验：在相同训练量的情况下，用传统OCR转录的文本训练出的模型，性能仅为人工转录版本的30%；经过正则清洗后，性能可回升至70%，但仍存在明显差距。目前，研究者正在开发一套专门针对历史文献的OCR系统，希望填补这一性能缺口。
第三个问题是训练后的对齐难题。现代大模型的指令微调，依赖大量人工标注的对话数据，但这些数据都带着现代世界的气息和预设。用这类数据微调Talkie，就像是把维多利亚时代的绅士送去参加现代企业培训，出来后说话会带着明显的「PPT腔」。Talkie早期版本在强化学习后，曾出现过说话全是列表和要点的情况，完全不符合1930年代的语言风格。
为解决这一问题，研究者从历史文本本身入手，利用礼仪手册、书信范文、烹饪食谱、百科全书等结构规整的旧书，生成专属的指令-回复对，从头构建了一套后训练流程。具体而言，用Claude Opus 4.6扮演用户、Talkie扮演助手，生成多轮对话，再用Claude Sonnet 4.6作为裁判，对Talkie的回答打分。训练开始时，裁判平均给出2分（满分5分），训练结束时，评分提升至3.4分，有了明显改善。
不过研究者也坦承，用现代AI作为裁判，本身就是一种「时代污染」。最彻底、最干净的做法，应该用Talkie的基础模型来评价Talkie的对话——让模型「自己审判自己」，完全遵循1930年的逻辑和语言风格，这也是他们下一步计划尝试的方向。
04 未来规划：向更大规模模型迈进
目前，研究者们并未停下脚步，正在推进更大规模的模型训练——他们正在训练一个GPT-3级别的模型，并计划在今年夏天发布。初步估计显示，他们可以将语料库扩展到超过1万亿个历史文本token，这一规模足以创建一个GPT-3.5级别的模型，其功能将与最初的ChatGPT类似。
随着Talkie模型的不断迭代，它不仅能为哈萨比斯提出的AGI判定难题提供更多探索线索，更能帮助研究者们更清晰地理解大模型的能力本质——剥离互联网数据的干扰，看清语言模型的核心属性。而这场「复古模型」的探索，或许能为AI的未来发展，开辟一条全新的路径。

作者：耀世娱乐-耀世注册登录平台

哈萨比斯出的难题，GPT之父接上了：用一个知识停在1930年的模型

新闻资讯 News

案例展示 Case

现在致电 8888910 OR 查看更多联系方式 →

现在致电 8888910 OR 查看更多联系方式 →