《精灵宝可梦》老办法测试性能不够看了

自从AI技术突飞猛进之后，单纯用老办法测试性能显然不够看了。有外媒报道，Google、OpenAI和Anthropic这些顶级科技公司，都决定用一款叫《精灵宝可梦》的经典游戏来测一测自家的AI。毕竟这游戏诞生在上世纪90年代，玩法复杂得很，不光要打怪升级，还得琢磨战术、做长期规划。Anthropic公司的AI负责人戴维·赫希说，这种充满不确定性的挑战比一般的基准测试难多了。从去年开始，赫希就在直播平台上展示他开发的Claude模型玩游戏的过程，后来谷歌的Gemini和OpenAI的GPT也加入了进来。这就好比搞了一场“AI竞技场”，开发团队还在直播里实时调参数来优化表现。虽说Claude还没通关初代《宝可梦蓝》，但它在做决定时暴露的短板也让算法改进有了方向。谷歌和OpenAI的模型倒是顺利打通了关卡。这种“沉浸式测试”可不只是图个热闹。AI在游戏里得不停地处理模糊指令、预测未来还得省着用资源，这跟现实中的自动化系统差不多。通过解析模型的几千次选择，研究人员能精准找到它在因果推断和多目标平衡上的薄弱环节。赫希透露，部分测试结果已经变成了企业级解决方案。专家觉得这种用游戏来测试的方式挺有新意，说明AI的评估体系正从死指标转向活场景。以后的训练和评估可能会更像玩游戏，让技术往通用智能的方向走。虽然这看起来挺有趣，但其实是在探索技术的深层能力。用这种非传统的方式做实验，可能就是在给下一代人工智能的发展铺路呢。