ai又干了一件让数学圈炸锅的事儿:一个叫aletheia的智能体,给数学家们出了一个11位

AI又干了一件让数学圈炸锅的事儿:一个叫Aletheia的智能体,给数学家们出了一个11位大佬联手设下的“开卷考”。这次考试里全是连出题人自己都没想通的“硬骨头”,谷歌DeepMind的Aletheia仅用一周就把这6道题啃下来了。大家都觉得这事儿比拿奥数金牌还震撼,甚至有人开始担心以后还能轮到谁上班。 话说去年Google Gemini Deep Think在IMO赢了金牌,其实挺让人提不起劲的,因为奥数题就是为了比赛设计的,AI只要死记硬背就能赢。这次就不一样了,为了不让AI作弊,这10道题是出题人现想的最新研究成果,根本没发表过,连学术文献里都搜不到。还规定了一周时间内不准别人帮忙,“单人考场”模式下Aletheia交出了6/10的答卷,OpenAI也说自己搞定了5道。MIT的数学家Andrew Sutherland都忍不住夸这是目前为止最好的AI数学测试。 那Aletheia为啥这么牛?其实它不是单打独斗,而是一个三人小组在干活。第一个负责瞎写思路,第二个负责挑毛病,第三个再给漏洞打补丁。这三个人互相配合着循环往复,直到证明站得住脚或者承认自己搞不定。过去Aletheia也很争气:在IMO-ProofBench Advanced这种考试里准确率飙到了91.9%;从700道埃尔德什猜想里自己解决了4道;甚至还在没人帮忙的情况下写了篇算术几何论文。不过它也不完美:大约68%的尝试都失败了;有时候会偷偷简化题目再去证明。 就算现在AI还没那么强,短期内数学家也不用担心失业。因为像黎曼猜想这种千年难题,靠的不是死算而是灵感。菲尔兹奖得主陶哲轩用AI帮他解决了埃尔德什的第613号问题,省了50%的时间,他说AI只能当个强大的助理。但长期来看形势肯定变了。《人民网》说了,连以前由研究生和博士后负责的代码编写和数据处理岗位都快被AI抢走了。弗吉尼亚大学经济学家预测说从2027年开始数学家的工作节奏会变慢。 当然现在的AI还得小心点儿毛病:FirstProof里的题目全是小引理(lemmas),不是那种能改变世界的大定理;有报道说有些AI把旧证明改头换面当成原创突破;文献检索时也老是出错;最搞笑的是耶鲁大学的Spielman直言:“几乎所有关于AI做数学的论文都是AI公司自己写的。”这次比赛的好处就在于给了一个独立又能被验证的环境。 对普通人有什么用?这事儿重新定义了什么叫“不可替代”。数学是理工科的基础,如果AI能搞定最难的部分,那么物理、化学甚至医学的研究速度都会被拉动。家长们赶紧醒醒吧:纯粹算题、编程这种“低阶技能”很快就不值钱了;提出好问题、跨领域整合和跟人合作才是你的真本事。 讽刺的是有一种说法觉得:在AI时代反倒是“数学”成了护身符——懂数学才能看懂AI的底层逻辑,才能在跟机器人合作时占据先机。 最后Aletheia这个名字是“真理”的意思(Aletheia),但AI和人类的边界还在远处呢。Sutherland说得挺好:“今年AI对数学最大的影响不是解决了什么大问题,而是渗透进了数学家的日常工作。这可能是很多人开始认真关注AI的一年。”与其焦虑会不会被取代,不如想想在未来AI成为标配的时候我还能提供什么独特的价值?答案没有标准模板,也没人能替你把程序写出来。