这才是最厉害的gemini 3 pro preview

最近我听说了一个特别有意思的AI测评，叫做“BabyVision”，专门用来测AI模型看东西的本事。你知道咱们现在经常说AI特别聪明，特别是语言能力，比如ChatGPT、Gemini这些，感觉能说会道的。不过这一测才发现，很多大模型在看图片的时候，竟然比3岁小孩还差！真的是让人有点哭笑不得。这个测评就是要看看AI到底会不会看图，跟人类小朋友比起来怎么样。他们搞了个测试集叫“BabyVision-Mini”，里面只有20道题，专门用来挑刺，不让模型用语言推理，只能纯靠看。结果发现，绝大多数模型在这儿都栽了跟头。就拿那个号称最厉害的Gemini 3 Pro Preview来说吧，它都差点没及格，只勉强超过了3岁小孩的水平。给你们举个例子，有一道垃圾分类连线题。题目是把塑料杯、废报纸和苹果核连到对应的垃圾桶。小朋友一看路径线就能找到终点，可是那个表现最好的模型却答错了。它是先把路径给解释了一遍，好像在自言自语一样，结果最后还是选错了。这就说明它们根本不会像人那样连续跟踪一条线。后来他们又加了一个更大的测试叫“BabyVision-Full”，一共有388道题。这回人类对照组是有本科以上学历的人，结果大家都挺厉害的，达到了94.1%的准确率。再看看AI呢？之前在Mini测试里得分最高的那个模型——Gemini 3 Pro Preview——这回掉链子了，准确率直接掉到了49.7%。还有个开源模型Qwen3VL-235B-Thinking也没好到哪去，只有22.2%。其他大多数开源模型就更惨了，得分基本都在12%到19%之间晃悠。这就好比高考数学题一样，题目越多越难的时候，这些模型的短板就越明显。研究人员还分析说，这不是一个小问题，而是全面落后。AI在精细辨别、动态追踪、空间想象和复杂模式识别这四大方面都有硬伤。就像人类看三维物体或者遮挡物后面有什么东西很自然一样，这些对AI来说太难了。所以我觉得这次测评就像一面镜子，照出了AI在视觉上的不足。它告诉我们要想真的让AI聪明起来，不能光靠把图片转成文字来推理。我们得让AI像小孩一样直接通过视觉去学习和互动才行。这对自动驾驶、机器人视觉还有医疗影像这些领域都有很大的影响。看来想让AI真正拥有人类一样的“视力”，还有很长的路要走呢。