清华学生和ai比比看，到底谁更会做高考的压轴题？

前两天，网易有道弄了个挺有意思的事儿，就是让6个清华姚班的学生跟AI比比看，到底谁更会做高考的压轴题。这个清华姚班可是图灵奖得主姚期智老爷子办的，里面的人那都是数学、物理、信息学竞赛的金牌得主，水平自然没得说。他们给AI出的两道题挺狠的，一道是2023年高考数学全国一卷的压轴题，另一道是2021年高考物理江苏卷的压轴题。结果是，姚班的学生花了10分钟才把答案写完，还得说句实话，里面就有1位同学不小心把题给做错了。反观AI这边，只要输入确认好了，几秒钟就能输出答案步骤，而且最后还答对了。有个学生就说，AI的做题思路跟他自己想的差不多，步骤写得比传统答案还清晰，挺适合学生拿去理解怎么解题。咱们再看去年高考结束后发生的事儿。当时有人把包括GPT-4o、豆包、文心4.0在内的9家大模型拉来做了一道河南的高考卷子，还用河南的分数线去评判这些模型的表现。结果发现，在文科方面有4家模型都达到了河南的一本线标准。但要命的是在理科这一块，没有一个大模型能拿到一本线的分数。有道那边的负责人给记者聊了聊为啥会搞这个测试。他说今年以来AI发展得很快，尤其是DeepSeek-R1这波儿推理模型带来了大爆发。AI在教育场景里的推理能力和交互能力特别高，特别适合给学生做个性化教学和答疑指导，质量也是越来越好。所以他们才挑了高考里的顶尖学霸出来，想通过这种面对面的方式直接给大伙儿看看AI能力到底涨了多少。至于为什么选这两道题来考？负责人解释说主要是觉得难度高、大家都知道的题型比较能引起注意。“因为大家心里都有数高考有多难，特别是这种高难度的理科压轴题，最能直观地看出效果。” 他还透露了个细节：前段时间他们还拿北京最新的二模卷子——也就是题库里没有的新题——给AI挑战过。老师批改完以后发现分数是697分（总分750），直接达到了“清北”的水平。“毕竟去年那些AI集体做24年高考题的时候，理科那边几乎全军覆没啊。” 其实这一两年好多做模型的公司都把数学能力当成自家产品的一大亮点。OpenAI在介绍OpenAI o3-mini的时候就说过，这是为了提高推理能力在 FrontierMath 上搞得比赛结果比前辈们都强不少。在这个由Epoch AI联合60多个全世界的数学家推出的新数学基准上，o3-mini用Python工具第一次试就解决了超过32%的问题，其中还有28%那种特别难的 T3 级别难题。不过后来这个成绩也被人质疑过真实性。谷歌那边也没闲着。他们前不久宣布搞出了基于强化学习的数学推理系统 AlphaProof 还有几何求解系统的升级版 AlphaGeometry 2。谷歌吹牛说这两个家伙联手解决了2024年国际数学奥林匹克比赛六道题里的四道呢，水平第一次达到了银牌得主的水准。到了今年4月29日那天，阿里巴巴也放了大招——新一代通义千问模型 Qwen3 发布了！据我了解这货在奥数水平的 AIME25 测评里拿下了81.5分，刷新了开源纪录。最后咱们再看看数据：艾媒咨询发了份报告讲2023到2027年这段时间的情况。报告里说在线教育市场的AI贡献率估计要从7%涨到16%左右呢。