普通人用AI攻克数学猜想的时代,要来了?
日期:2026-05-07 08:35:04 / 人气:12

AI大潮一日千里,许多技术还未流行就已过时。有人曾半开玩笑地总结现代AI工具的学习经验:“你越不学,就越不用学。”而当AI的触角伸向数学这门以严谨和抽象著称的学科,一个令人振奋又引人深思的问题随之而来:普通人用AI攻克数学猜想的时代,真的要来了?
过度炒作往往会导致倦怠和冷漠。如果一切都被描绘成某种奇迹般的突破,真正重要的进步就会被淹没在喧嚣之中。AI自主解决有严肃学术背景的数学问题,无疑是今年第一季度最重要、至少是最引人注目的数学大事件,但它从一开始就伴随着一连串的乌龙、炒作与反转,需要我们拨开迷雾,看清其真实的能力边界与发展潜力。
故事的序幕,始于AI在数学竞赛领域的惊人突破。2025年夏天,AI模型在国际数学奥林匹克(IMO)上解出6道试题中的5道,相当于获得了金牌,震惊了整个数学界。此后数月,多个团队深入研究,到当年年末,已经训练出可以完美解答USAMO(美国数学奥林匹克竞赛)试题乃至著名普特南数学竞赛试题的AI模型。然而,这份看似耀眼的成绩,却只收获了寥寥掌声——因为就在同一时期,已有AI能够完全自主解决传奇数学家保罗·埃尔德什(Paul Erdős)遗留的数学问题。相较之下,仅仅在有标准答案的考试中拿到满分,就显得有些“尴尬”了。
AI模型自主解决开放的数学问题(以及AI辅助人类解决数学问题),由此成为今年上半年最重要的数学事件。而这场热潮的起点,是一次闹得沸沸扬扬的乌龙事件。2025年10月18日,OpenAI旗下研究员Mark Sellke在社交平台X上高调宣布:他们借助GPT-5成功解答了10个著名的埃尔德什问题(Erdős problems),还取得了11个难题的重要进展,甚至发现了埃尔德什本人原始论文中的一处错误。OpenAI高管也纷纷应和,宣称“由AI驱动的科学加速时代正式开启”。
然而,Google DeepMind的CEO Demis Hassabis却在这条推文下意味深长地评论道:“太尴尬了(this is embarrassing)!”真相很快浮出水面:GPT-5并没有真正“解答”这些问题,只是通过网络搜索,找到了早已存在但并不广为人知的论文,这些论文才是问题的真正答案。这次乌龙事件也让不少人对AI的数学能力产生了怀疑,有数学教授甚至断言,现阶段AI无法独立攻克有真实学术背景的数学难题。
未曾想,话音未落,就有不止一个团队站出来表示,他们已经让AI独立解决了某些埃尔德什问题。经过一番甄别与审校,最终认定第一个做到此事的,是一位来自剑桥大学的21岁数学系本科生Kevin Barreto与他的合作伙伴Liam Price。要理解他们的成就,我们首先需要弄清楚:什么是埃尔德什问题?那些带着#号的数字又代表着什么?
“埃尔德什问题”并非指某一个特定的数学难题,而是指由20世纪最具传奇色彩的匈牙利数学家保罗·埃尔德什生前提出的一大批数学猜想。埃尔德什是一位“游侠数学家”,没有固定住所,也没有全职工作,一生提着行李箱穿梭于世界各地的大学和研究所,与超过500名数学家联合发表过1500多篇论文,是数学史上最多产的合作者。
许多著名的埃尔德什问题,都是他在别人的客厅里、咖啡馆的餐巾纸上,与当地数学家热烈讨论时共同构思出来的。埃尔德什有一个著名的习惯——为未解问题开出悬赏,奖金金额从25美元(代表难度较低但仍需巧思)到10000美元(代表难度极高)不等。即便某个问题不是他自己提出的,只要足够优美、重要且尚未解决,他也会自掏腰包悬赏,并在各种国际会议上宣扬。
可以说,埃尔德什问题是埃尔德什以独特的个人魅力、敏锐的直觉和慷慨的悬赏,在整个数学界建立起的一个问题宝库,涉及加性组合、解析数论、极值图论、集合论、概率论等多个领域。近几年,曼彻斯特大学的皇家学会大学研究员Thomas Bloom(解析数论和加性组合领域的专家)建立了专门的网站(erdosproblems.com),用于收录埃尔德什未解决的开放性难题。
这个网站最初创建于2023年3月底,问题以“#+数字”编号,最初仅收录了200多道问题,仅能浏览和查找。由于问题来源不一,有些问题或许早已得到解决,只是相关论文被埋没在历史之中——这也正是OpenAI闹出乌龙的原因。2025年8月,网站添加了评论功能,结果当天菲尔兹奖得主陶哲轩等人就在评论区讨论一番,为#379找到了简短的解决方案,其证明还通过了Lean语言校验。截至目前,该网站上已有超过1200个问题(其中仅约100个设有奖金),其中约44%已得到解决。
需要澄清的是,埃尔德什问题的难度跨度极大:有些极其困难,有些则“唾手可得”。有媒体动辄冠以“AI破解N年难题”,暗示问题难度极高、抵挡住了人类所有尝试,但实际情况可能只是问题十分冷门,在数学界N年无人问津。而这个网站的价值,就在于把这些分散的问题集中起来,让故纸堆中的问题被更多人看见,也为检验AI在真实学术活动中的潜力,提供了一块绝佳的试金石。
早在2024年,Google DeepMind开发的AI模型就已经可以辅助人类证明新的数学定理,但AI(尤其是现在的大语言模型LLM)能否在不需要人类提示的情况下,独立解答一个至今未解的埃尔德什问题,始终是一个未知数。名为Axiom Math的初创公司曾宣称,他们的AI模型AxiomProver解决了两个困扰数学界数十年的埃尔德什问题——#124和#481,但后来被证实是一次炒作:#124表述有歧义,Aristotle模型解决的是简化版,而#481早在1982年就已被证明。不过,这些尝试也启发了更多研究者,Kevin Barreto就是其中之一。
Kevin Barreto网名Acer,线上是亚文化社区里的“furry控”,线下是剑桥大学数学系的本科生,自13岁起就喜欢解析数论,也是Aristotle模型最早的测试用户之一。2025年11月,看到Aristotle解决了简化版的#124后,他有些坐不住了——如果AI能在这些问题上取得进展,自己或许也能摘下一枚“低垂的果实”。“低垂的果实”(low-hanging fruit)是陶哲轩去年用来描述可被AI解决的数学问题的短语,如今已成为数学界和AI领域的热词。
在连续两次为早有解答的问题提交证明后,Kevin Barreto与合作伙伴Liam Price借助OpenAI当时新推出的GPT-5.2 Pro,成功解决了埃尔德什问题#728。2026年1月7日,Barreto使用Aristotle将证明过程自动转为Lean语言并完成校验,这一成果被陶哲轩称为里程碑式的成就——这是第一个由AI自主完成的、有严肃学术背景的埃尔德什问题的证明。
这两人的成功,瞬间激发了人们的热情。高峰时期,每天有15万不同的访客涌向Erdős问题网站,很多人递交了自己用AI生成的证明。可惜,大部分网络用户缺少必要的数学知识,难以辨别这些证明是胡言乱语还是真材实料。为此,陶哲轩建立了专门的资源库,用于记录那些真正有效的证明。
从1月初到2月10日前后的一个多月里,陶哲轩收到了大量针对埃尔德什问题的新解答,其中既有纯AI生成的证明,也有人机协作的产物。尽管有些被证明是错误的,有些与已有方案相似,但仍有很多新解法被验证——在此期间,网站上又有近50个问题被标记为已解决。事实上,AI工具对埃尔德什问题的真正成功率只有一两个百分点,但由于有600多个悬而未决的开放问题,AI仍然带来了令人印象深刻的实际贡献,只不过这些贡献绝大多数集中在难度天平里“容易”的那一端。
这段时间里,也涌现出了不少有趣的成果:Boris Alexeev、Mehtaab Sawhney等人使用OpenAI的内部模型,一次解决了5个埃尔德什问题;美国17岁高中生Enrique Barschkis先是在网站评论区正确解答了#347,两个月后又用AI自主解决了#1197;另一位17岁少年Sky Yang未用AI,也独立证明了#369;Ulam.ai研究员Przemek Chojecki则解决了#258和#1148,其中#1148是一个普通人都能理解题意、但证明方法非初等的问题。
Przemek Chojecki还公布了他使用AI研究数学的方法,与Kevin Barreto和Liam Price的方法论大体一致,细节更为丰富。这套方法也为普通人用AI研究数学提供了可行的路径,整理如下:
1. 具备基本素养,能大致判断哪些问题足够简单,属于“低垂的果实”;
2. 使用当下最前沿的AI工具(通常是付费订阅的高端版本);
3. 向AI提交问题时,明令禁止其检索,强迫它进入“思考”模式,避免因“胆怯”而拒绝尝试;
4. 明确任务指令,要求AI每一步都给出严谨的证明或反驳;
5. 用一个模型实例进行“问题陈述+头脑风暴”,输出核心思路提示,供后续实例使用;
6. 用另一个模型实例根据提示,尝试写出完整证明;
7. 交叉检查,用第三个模型审查证明,指出潜在错误或缺口,通过迭代修正逼近正确解;
8. 鼓励AI诚实面对困难,遇到无法证明的引理时明确说明,而非编造内容;
9. 分步验证,每个阶段都要求AI解释逻辑,不直接给出最终答案;
10. 将最终证明转为LaTeX格式,保证规范清晰,条件允许时用Lean等证明助手进行形式化验证;
11. 人类监督,即使不是专业数学家,也要检查证明是否“合理”,避免明显的谬误。
最终通过“人类反馈+模型修正”的闭环,逐步完善证明。这套方法简单易懂,有志于数学研究的朋友,尤其是数学专业的学生,都可以尝试。
那么,现代AI工具的数学能力到底如何?陶哲轩去年曾表示,现在的AI大体上相当于聪明的博士研究生,这句话到今天仍未过时。Kevin Barreto也感叹,AI给出的证明没有真正让他眼前一亮的新颖东西,但我们也不应低估AI的潜力——他们用AI解决#728的方法,与美国数学家Carl Bernard Pomerance在2014年一篇论文中的方法非常相似,但AI是第一次将该技术用于这一具体问题。
AI的贡献,性质相当微妙:它既没有达到“自主解决重大数学开放性问题”的夸张预期,也不能被视为无关紧要的小把戏。其最显而易见的价值,是降低了数学爱好者进入前沿领域的门槛——以前,普通人想要接触并尝试解决前沿数学猜想,几乎是不可能的;而现在,借助AI工具,即使是本科生、高中生,也能参与其中,甚至取得一定成果。
Kevin Barreto和Liam Price的故事,也充满了AI时代的戏剧性。两人连续解决几个埃尔德什问题后,在专门评估AI高阶数学推理能力的FrontierMath基准测试中拔得头筹——一次是运气,两次就是实力的证明。随后,Kevin Barreto加入Google DeepMind,在Gemini上首次实现了AI自主证明埃尔德什问题;OpenAI也向他抛来橄榄枝,他果断休学一年进入OpenAI实习。
就在他纠结是否要退学正式入职时,向他发出邀请的OpenAI高管Kevin Weil宣布离职,而继续独立研究的Liam Price,用AI自主解决了埃尔德什问题#1196。这一证明令人耳目一新:AI出乎意料地使用了马尔可夫链,以及通常不会用在此类问题中的数论函数冯·曼戈尔特函数,是数学家以前未曾设想过的思路。
菲尔兹奖得主James Maynard的学生Jared Duker Lichtman对这个证明赞不绝口,甚至认为这相当于AI在数学领域的“Move 37”时刻。“Move 37”是2016年AlphaGo与李世石对决时,AlphaGo下出的一步超出人类经验、极具创造力的棋,被视为AI棋力超越人类的里程碑。不过,也有很多人并不认可这一评价,陶哲轩在简化证明时就发现,其实可以给出表面上不用马尔可夫链的证明。即便如此,Sebastien Bubeck(OpenAI研究员)仍用刚上线的ChatGPT Images 2.0为#1196绘制了证明路线图,称之为AI第一个非平凡的数学成果。
需要补充的是,#728并非第一个被AI自主解决的开放性数学问题。苏黎世联邦理工学院的数学家Johannes Schmitt团队,更早宣称实现了AI在没有人类提示、没有辅助框架的情况下,独立给出开放数学问题的完整有效证明——题目涉及曲线模空间上的交数,属于枚举几何领域,AI做出了“小但新颖的贡献”。只是因为这个问题没有埃尔德什的光环加持,才没有引起广泛关注。
就在本文编辑过程中,GPT-5.5发布不到48小时,就有20个埃尔德什问题的新答案提交;美国17岁高中生Enrique Barschkis把一个开放问题提交给GPT-5.5,出去散步80分钟后,AI就找到了答案,且只需简单复制粘贴,就能将证明转为LaTeX格式并通过Lean语言校验;5月1日至2日的24小时里,就有5个问题从“开放”转为“已解决”。Thomas Bloom的网站甚至因AI提交的答案太多(其中很多毫无意义)而濒临瘫痪,他无奈表示:“我希望,在近期AI解决埃尔德什问题的大量宣传中,至少能有几个人真正阅读了其中的数学内容,并学习了一些背后的理论。AI新闻头条是次要的,它们背后蕴含的优美数学才是真正的主角!”
不可否认,AI在数学领域的突破还存在诸多局限:成功率不高,主要解决的是难度较低的“低垂果实”,尚未能攻克真正的重大难题;很多证明思路仍未脱离人类已有成果,真正的原创性突破还很少;过度炒作也容易让大众产生误解,忽视了数学本身的价值。但我们也不能否认,一个新的时代已经悄然开启——虽然还不是“普通人用AI攻克重大数学猜想”的时代,但已经是“普通人借助AI,能够接触并尝试解决前沿数学问题”的时代。
这场AI与数学的碰撞,国内团队普遍缺席,目前唯一大放异彩的参与者,是来自西安交通大学、刚刚大四的本科生汤泉宇——这又是另一个精彩的故事。而对于我们普通人而言,AI不是“魔法”,不能替代人类的思考和积累,但它可以成为一个强大的工具,降低入门门槛,辅助我们探索数学的奥秘。
或许,普通人用AI攻克数学猜想的时代,还没有真正到来,但它已经不再遥远。当AI的能力不断提升,当更多人掌握了用AI研究数学的方法,当我们不再沉迷于“AI破解难题”的炒作,而是专注于数学本身的探索,那个充满无限可能的时代,就会如期而至。
作者:耀世娱乐-耀世注册登录平台
新闻资讯 News
- 37岁文咏珊近况曝光!告别七年错...05-11
- 热依扎发文否认生病:演员、女儿...05-11
- 《本能》《黑皮书》导演保罗范霍...05-11
- 从盼弟到忆秦娥:张艺谋新作《主...05-11

