普通人用AI攻克数学猜想的时代，要来了？

日期：2026-05-07 08:35:04 / 人气：38

AI大潮一日千里，许多技术还未流行就已过时。有人曾半开玩笑地总结现代AI工具的学习经验：“你越不学，就越不用学。”而当AI的触角伸向数学这门以严谨和抽象著称的学科，一个令人振奋又引人深思的问题随之而来：普通人用AI攻克数学猜想的时代，真的要来了？
过度炒作往往会导致倦怠和冷漠。如果一切都被描绘成某种奇迹般的突破，真正重要的进步就会被淹没在喧嚣之中。AI自主解决有严肃学术背景的数学问题，无疑是今年第一季度最重要、至少是最引人注目的数学大事件，但它从一开始就伴随着一连串的乌龙、炒作与反转，需要我们拨开迷雾，看清其真实的能力边界与发展潜力。
故事的序幕，始于AI在数学竞赛领域的惊人突破。2025年夏天，AI模型在国际数学奥林匹克（IMO）上解出6道试题中的5道，相当于获得了金牌，震惊了整个数学界。此后数月，多个团队深入研究，到当年年末，已经训练出可以完美解答USAMO（美国数学奥林匹克竞赛）试题乃至著名普特南数学竞赛试题的AI模型。然而，这份看似耀眼的成绩，却只收获了寥寥掌声——因为就在同一时期，已有AI能够完全自主解决传奇数学家保罗·埃尔德什（Paul Erdős）遗留的数学问题。相较之下，仅仅在有标准答案的考试中拿到满分，就显得有些“尴尬”了。
AI模型自主解决开放的数学问题（以及AI辅助人类解决数学问题），由此成为今年上半年最重要的数学事件。而这场热潮的起点，是一次闹得沸沸扬扬的乌龙事件。2025年10月18日，OpenAI旗下研究员Mark Sellke在社交平台X上高调宣布：他们借助GPT-5成功解答了10个著名的埃尔德什问题（Erdős problems），还取得了11个难题的重要进展，甚至发现了埃尔德什本人原始论文中的一处错误。OpenAI高管也纷纷应和，宣称“由AI驱动的科学加速时代正式开启”。
然而，Google DeepMind的CEO Demis Hassabis却在这条推文下意味深长地评论道：“太尴尬了（this is embarrassing）！”真相很快浮出水面：GPT-5并没有真正“解答”这些问题，只是通过网络搜索，找到了早已存在但并不广为人知的论文，这些论文才是问题的真正答案。这次乌龙事件也让不少人对AI的数学能力产生了怀疑，有数学教授甚至断言，现阶段AI无法独立攻克有真实学术背景的数学难题。
未曾想，话音未落，就有不止一个团队站出来表示，他们已经让AI独立解决了某些埃尔德什问题。经过一番甄别与审校，最终认定第一个做到此事的，是一位来自剑桥大学的21岁数学系本科生Kevin Barreto与他的合作伙伴Liam Price。要理解他们的成就，我们首先需要弄清楚：什么是埃尔德什问题？那些带着#号的数字又代表着什么？
“埃尔德什问题”并非指某一个特定的数学难题，而是指由20世纪最具传奇色彩的匈牙利数学家保罗·埃尔德什生前提出的一大批数学猜想。埃尔德什是一位“游侠数学家”，没有固定住所，也没有全职工作，一生提着行李箱穿梭于世界各地的大学和研究所，与超过500名数学家联合发表过1500多篇论文，是数学史上最多产的合作者。
许多著名的埃尔德什问题，都是他在别人的客厅里、咖啡馆的餐巾纸上，与当地数学家热烈讨论时共同构思出来的。埃尔德什有一个著名的习惯——为未解问题开出悬赏，奖金金额从25美元（代表难度较低但仍需巧思）到10000美元（代表难度极高）不等。即便某个问题不是他自己提出的，只要足够优美、重要且尚未解决，他也会自掏腰包悬赏，并在各种国际会议上宣扬。
可以说，埃尔德什问题是埃尔德什以独特的个人魅力、敏锐的直觉和慷慨的悬赏，在整个数学界建立起的一个问题宝库，涉及加性组合、解析数论、极值图论、集合论、概率论等多个领域。近几年，曼彻斯特大学的皇家学会大学研究员Thomas Bloom（解析数论和加性组合领域的专家）建立了专门的网站（erdosproblems.com），用于收录埃尔德什未解决的开放性难题。
这个网站最初创建于2023年3月底，问题以“#+数字”编号，最初仅收录了200多道问题，仅能浏览和查找。由于问题来源不一，有些问题或许早已得到解决，只是相关论文被埋没在历史之中——这也正是OpenAI闹出乌龙的原因。2025年8月，网站添加了评论功能，结果当天菲尔兹奖得主陶哲轩等人就在评论区讨论一番，为#379找到了简短的解决方案，其证明还通过了Lean语言校验。截至目前，该网站上已有超过1200个问题（其中仅约100个设有奖金），其中约44%已得到解决。
需要澄清的是，埃尔德什问题的难度跨度极大：有些极其困难，有些则“唾手可得”。有媒体动辄冠以“AI破解N年难题”，暗示问题难度极高、抵挡住了人类所有尝试，但实际情况可能只是问题十分冷门，在数学界N年无人问津。而这个网站的价值，就在于把这些分散的问题集中起来，让故纸堆中的问题被更多人看见，也为检验AI在真实学术活动中的潜力，提供了一块绝佳的试金石。
早在2024年，Google DeepMind开发的AI模型就已经可以辅助人类证明新的数学定理，但AI（尤其是现在的大语言模型LLM）能否在不需要人类提示的情况下，独立解答一个至今未解的埃尔德什问题，始终是一个未知数。名为Axiom Math的初创公司曾宣称，他们的AI模型AxiomProver解决了两个困扰数学界数十年的埃尔德什问题——#124和#481，但后来被证实是一次炒作：#124表述有歧义，Aristotle模型解决的是简化版，而#481早在1982年就已被证明。不过，这些尝试也启发了更多研究者，Kevin Barreto就是其中之一。
Kevin Barreto网名Acer，线上是亚文化社区里的“furry控”，线下是剑桥大学数学系的本科生，自13岁起就喜欢解析数论，也是Aristotle模型最早的测试用户之一。2025年11月，看到Aristotle解决了简化版的#124后，他有些坐不住了——如果AI能在这些问题上取得进展，自己或许也能摘下一枚“低垂的果实”。“低垂的果实”（low-hanging fruit）是陶哲轩去年用来描述可被AI解决的数学问题的短语，如今已成为数学界和AI领域的热词。
在连续两次为早有解答的问题提交证明后，Kevin Barreto与合作伙伴Liam Price借助OpenAI当时新推出的GPT-5.2 Pro，成功解决了埃尔德什问题#728。2026年1月7日，Barreto使用Aristotle将证明过程自动转为Lean语言并完成校验，这一成果被陶哲轩称为里程碑式的成就——这是第一个由AI自主完成的、有严肃学术背景的埃尔德什问题的证明。
这两人的成功，瞬间激发了人们的热情。高峰时期，每天有15万不同的访客涌向Erdős问题网站，很多人递交了自己用AI生成的证明。可惜，大部分网络用户缺少必要的数学知识，难以辨别这些证明是胡言乱语还是真材实料。为此，陶哲轩建立了专门的资源库，用于记录那些真正有效的证明。
从1月初到2月10日前后的一个多月里，陶哲轩收到了大量针对埃尔德什问题的新解答，其中既有纯AI生成的证明，也有人机协作的产物。尽管有些被证明是错误的，有些与已有方案相似，但仍有很多新解法被验证——在此期间，网站上又有近50个问题被标记为已解决。事实上，AI工具对埃尔德什问题的真正成功率只有一两个百分点，但由于有600多个悬而未决的开放问题，AI仍然带来了令人印象深刻的实际贡献，只不过这些贡献绝大多数集中在难度天平里“容易”的那一端。
这段时间里，也涌现出了不少有趣的成果：Boris Alexeev、Mehtaab Sawhney等人使用OpenAI的内部模型，一次解决了5个埃尔德什问题；美国17岁高中生Enrique Barschkis先是在网站评论区正确解答了#347，两个月后又用AI自主解决了#1197；另一位17岁少年Sky Yang未用AI，也独立证明了#369；Ulam.ai研究员Przemek Chojecki则解决了#258和#1148，其中#1148是一个普通人都能理解题意、但证明方法非初等的问题。
Przemek Chojecki还公布了他使用AI研究数学的方法，与Kevin Barreto和Liam Price的方法论大体一致，细节更为丰富。这套方法也为普通人用AI研究数学提供了可行的路径，整理如下：
1. 具备基本素养，能大致判断哪些问题足够简单，属于“低垂的果实”；
2. 使用当下最前沿的AI工具（通常是付费订阅的高端版本）；
3. 向AI提交问题时，明令禁止其检索，强迫它进入“思考”模式，避免因“胆怯”而拒绝尝试；
4. 明确任务指令，要求AI每一步都给出严谨的证明或反驳；
5. 用一个模型实例进行“问题陈述+头脑风暴”，输出核心思路提示，供后续实例使用；
6. 用另一个模型实例根据提示，尝试写出完整证明；
7. 交叉检查，用第三个模型审查证明，指出潜在错误或缺口，通过迭代修正逼近正确解；
8. 鼓励AI诚实面对困难，遇到无法证明的引理时明确说明，而非编造内容；
9. 分步验证，每个阶段都要求AI解释逻辑，不直接给出最终答案；
10. 将最终证明转为LaTeX格式，保证规范清晰，条件允许时用Lean等证明助手进行形式化验证；
11. 人类监督，即使不是专业数学家，也要检查证明是否“合理”，避免明显的谬误。
最终通过“人类反馈+模型修正”的闭环，逐步完善证明。这套方法简单易懂，有志于数学研究的朋友，尤其是数学专业的学生，都可以尝试。
那么，现代AI工具的数学能力到底如何？陶哲轩去年曾表示，现在的AI大体上相当于聪明的博士研究生，这句话到今天仍未过时。Kevin Barreto也感叹，AI给出的证明没有真正让他眼前一亮的新颖东西，但我们也不应低估AI的潜力——他们用AI解决#728的方法，与美国数学家Carl Bernard Pomerance在2014年一篇论文中的方法非常相似，但AI是第一次将该技术用于这一具体问题。
AI的贡献，性质相当微妙：它既没有达到“自主解决重大数学开放性问题”的夸张预期，也不能被视为无关紧要的小把戏。其最显而易见的价值，是降低了数学爱好者进入前沿领域的门槛——以前，普通人想要接触并尝试解决前沿数学猜想，几乎是不可能的；而现在，借助AI工具，即使是本科生、高中生，也能参与其中，甚至取得一定成果。
Kevin Barreto和Liam Price的故事，也充满了AI时代的戏剧性。两人连续解决几个埃尔德什问题后，在专门评估AI高阶数学推理能力的FrontierMath基准测试中拔得头筹——一次是运气，两次就是实力的证明。随后，Kevin Barreto加入Google DeepMind，在Gemini上首次实现了AI自主证明埃尔德什问题；OpenAI也向他抛来橄榄枝，他果断休学一年进入OpenAI实习。
就在他纠结是否要退学正式入职时，向他发出邀请的OpenAI高管Kevin Weil宣布离职，而继续独立研究的Liam Price，用AI自主解决了埃尔德什问题#1196。这一证明令人耳目一新：AI出乎意料地使用了马尔可夫链，以及通常不会用在此类问题中的数论函数冯·曼戈尔特函数，是数学家以前未曾设想过的思路。
菲尔兹奖得主James Maynard的学生Jared Duker Lichtman对这个证明赞不绝口，甚至认为这相当于AI在数学领域的“Move 37”时刻。“Move 37”是2016年AlphaGo与李世石对决时，AlphaGo下出的一步超出人类经验、极具创造力的棋，被视为AI棋力超越人类的里程碑。不过，也有很多人并不认可这一评价，陶哲轩在简化证明时就发现，其实可以给出表面上不用马尔可夫链的证明。即便如此，Sebastien Bubeck（OpenAI研究员）仍用刚上线的ChatGPT Images 2.0为#1196绘制了证明路线图，称之为AI第一个非平凡的数学成果。
需要补充的是，#728并非第一个被AI自主解决的开放性数学问题。苏黎世联邦理工学院的数学家Johannes Schmitt团队，更早宣称实现了AI在没有人类提示、没有辅助框架的情况下，独立给出开放数学问题的完整有效证明——题目涉及曲线模空间上的交数，属于枚举几何领域，AI做出了“小但新颖的贡献”。只是因为这个问题没有埃尔德什的光环加持，才没有引起广泛关注。
就在本文编辑过程中，GPT-5.5发布不到48小时，就有20个埃尔德什问题的新答案提交；美国17岁高中生Enrique Barschkis把一个开放问题提交给GPT-5.5，出去散步80分钟后，AI就找到了答案，且只需简单复制粘贴，就能将证明转为LaTeX格式并通过Lean语言校验；5月1日至2日的24小时里，就有5个问题从“开放”转为“已解决”。Thomas Bloom的网站甚至因AI提交的答案太多（其中很多毫无意义）而濒临瘫痪，他无奈表示：“我希望，在近期AI解决埃尔德什问题的大量宣传中，至少能有几个人真正阅读了其中的数学内容，并学习了一些背后的理论。AI新闻头条是次要的，它们背后蕴含的优美数学才是真正的主角！”
不可否认，AI在数学领域的突破还存在诸多局限：成功率不高，主要解决的是难度较低的“低垂果实”，尚未能攻克真正的重大难题；很多证明思路仍未脱离人类已有成果，真正的原创性突破还很少；过度炒作也容易让大众产生误解，忽视了数学本身的价值。但我们也不能否认，一个新的时代已经悄然开启——虽然还不是“普通人用AI攻克重大数学猜想”的时代，但已经是“普通人借助AI，能够接触并尝试解决前沿数学问题”的时代。
这场AI与数学的碰撞，国内团队普遍缺席，目前唯一大放异彩的参与者，是来自西安交通大学、刚刚大四的本科生汤泉宇——这又是另一个精彩的故事。而对于我们普通人而言，AI不是“魔法”，不能替代人类的思考和积累，但它可以成为一个强大的工具，降低入门门槛，辅助我们探索数学的奥秘。
或许，普通人用AI攻克数学猜想的时代，还没有真正到来，但它已经不再遥远。当AI的能力不断提升，当更多人掌握了用AI研究数学的方法，当我们不再沉迷于“AI破解难题”的炒作，而是专注于数学本身的探索，那个充满无限可能的时代，就会如期而至。

作者：耀世娱乐-耀世注册登录平台

普通人用AI攻克数学猜想的时代，要来了？

新闻资讯 News

案例展示 Case

现在致电 8888910 OR 查看更多联系方式 →

现在致电 8888910 OR 查看更多联系方式 →