最近我听说了一个特别有意思的AI测评,叫做“BabyVision”,专门用来测AI模型看东西的本事。你知道咱们现在经常说AI特别聪明,特别是语言能力,比如ChatGPT、Gemini这些,感觉能说会道的。不过这一测才发现,很多大模型在看图片的时候,竟然比3岁小孩还差!真的是让人有点哭笑不得。 这个测评就是要看看AI到底会不会看图,跟人类小朋友比起来怎么样。他们搞了个测试集叫“BabyVision-Mini”,里面只有20道题,专门用来挑刺,不让模型用语言推理,只能纯靠看。结果发现,绝大多数模型在这儿都栽了跟头。就拿那个号称最厉害的Gemini 3 Pro Preview来说吧,它都差点没及格,只勉强超过了3岁小孩的水平。 给你们举个例子,有一道垃圾分类连线题。题目是把塑料杯、废报纸和苹果核连到对应的垃圾桶。小朋友一看路径线就能找到终点,可是那个表现最好的模型却答错了。它是先把路径给解释了一遍,好像在自言自语一样,结果最后还是选错了。这就说明它们根本不会像人那样连续跟踪一条线。 后来他们又加了一个更大的测试叫“BabyVision-Full”,一共有388道题。这回人类对照组是有本科以上学历的人,结果大家都挺厉害的,达到了94.1%的准确率。再看看AI呢?之前在Mini测试里得分最高的那个模型——Gemini 3 Pro Preview——这回掉链子了,准确率直接掉到了49.7%。 还有个开源模型Qwen3VL-235B-Thinking也没好到哪去,只有22.2%。其他大多数开源模型就更惨了,得分基本都在12%到19%之间晃悠。这就好比高考数学题一样,题目越多越难的时候,这些模型的短板就越明显。 研究人员还分析说,这不是一个小问题,而是全面落后。AI在精细辨别、动态追踪、空间想象和复杂模式识别这四大方面都有硬伤。就像人类看三维物体或者遮挡物后面有什么东西很自然一样,这些对AI来说太难了。 所以我觉得这次测评就像一面镜子,照出了AI在视觉上的不足。它告诉我们要想真的让AI聪明起来,不能光靠把图片转成文字来推理。我们得让AI像小孩一样直接通过视觉去学习和互动才行。这对自动驾驶、机器人视觉还有医疗影像这些领域都有很大的影响。看来想让AI真正拥有人类一样的“视力”,还有很长的路要走呢。