ai能不能搞懂学术论文里那些复杂的假设到底是真是假

华盛顿州立大学教授Mesut Cicek带着他的研究团队搞了个大动作,把目光投向了ChatGPT。他们想看看这玩意能不能搞懂学术论文里那些复杂的假设到底是真是假。为了求证这个事儿,他们一共翻了2021年之后商业期刊里的719个假设,每个假设都问上10次,就为了看看ChatGPT能不能自圆其说。 先看2024年的成绩吧,这免费版的ChatGPT-3.5正确率能达到76.5%,到了2025年升级成ChatGPT-5 mini以后,准确率还略微涨到了80%。乍一看挺厉害,其实仔细一琢磨就不咋地。这AI要是扣除了一半随机瞎猜的几率,剩下的表现也就勉强能算作是60%的正确率,也就是刚好及格。最让人头疼的是它在识破错误假设时特别菜,正确率低得可怜才16.4%。 这玩意儿还有个更要命的毛病就是特爱“变脸”。哪怕问题一模一样问上10遍,它给出的答案能把人搞糊涂。有时候是5次说真话、5次说假话这种极端情况;有时候更是在“真”和“假”之间反复横跳;哪怕是同一个假设被反复考10次,它也只有大约73%的几率给出完全一样的答案。Cicek觉得,大家不能光盯着准确率看,更得提防它这种动不动就前后不一的情况。 很多人可能会觉得它说话流畅就行,那可大错特错了。实际上这玩意儿就是个复读机,根本不具备人类那种深层的理解能力。研究报告里写得很明白:现在的AI工具不像人类那样理解世界——它们就是个电脑程序,就是在记忆和提取信息罢了。哪怕能给出一些看起来靠谱的见解,它自己压根也不知道那是什么意思。 这份发表在《罗格斯商业评论》上的研究还特意强调了一点:以后靠AI做重要决策可得小心点,特别是那些涉及复杂推理的场合。毕竟AI没有大脑和自我认知。Cicek提到了一个很现实的问题:那些能真正“思考”的通用人工智能(AGI)离我们可能比预想的还要远得多。 这次实验的成员不光有Cicek,还有南伊利诺伊大学的Sevincgul Ulu、罗格斯大学的Can Uslay以及东北大学的Kate Karniouchina。他们选的这些商业假设都特别烧脑,往往得仔细琢磨半天才能简化成“真”或者“假”。实验是分别在2024年测试免费版和2025年测试升级版来进行的。 测试结果摆在那儿让人心里没底:扣除了50%的随机猜测概率后,不管是旧版还是新版AI的实际表现也就比随机猜测高出大约60%。这么来看的话,把重要决策全压在AI身上是非常不靠谱的。 专家们也给企业领导提了个醒:面对AI生成的信息必须时刻保持怀疑态度并进行验证。同时还得给员工做培训讲清楚AI的能力边界到底在哪里。Cicek还说类似的测试结果在其他AI工具身上也出现了类似的情况;而且2024年有个全国性的调查也显示了一个很有意思的事儿——消费者对那些主打AI营销的产品反而更没兴趣去买了。 “永远保持怀疑”,Cicek自己其实也在用AI工具处理一些日常工作,“我并不反对AI”,他说,“只是必须要非常谨慎地对待它”。