《精灵宝可梦》老办法测试性能不够看了

自从AI技术突飞猛进之后,单纯用老办法测试性能显然不够看了。有外媒报道,Google、OpenAI和Anthropic这些顶级科技公司,都决定用一款叫《精灵宝可梦》的经典游戏来测一测自家的AI。毕竟这游戏诞生在上世纪90年代,玩法复杂得很,不光要打怪升级,还得琢磨战术、做长期规划。Anthropic公司的AI负责人戴维·赫希说,这种充满不确定性的挑战比一般的基准测试难多了。 从去年开始,赫希就在直播平台上展示他开发的Claude模型玩游戏的过程,后来谷歌的Gemini和OpenAI的GPT也加入了进来。这就好比搞了一场“AI竞技场”,开发团队还在直播里实时调参数来优化表现。虽说Claude还没通关初代《宝可梦蓝》,但它在做决定时暴露的短板也让算法改进有了方向。谷歌和OpenAI的模型倒是顺利打通了关卡。 这种“沉浸式测试”可不只是图个热闹。AI在游戏里得不停地处理模糊指令、预测未来还得省着用资源,这跟现实中的自动化系统差不多。通过解析模型的几千次选择,研究人员能精准找到它在因果推断和多目标平衡上的薄弱环节。赫希透露,部分测试结果已经变成了企业级解决方案。 专家觉得这种用游戏来测试的方式挺有新意,说明AI的评估体系正从死指标转向活场景。以后的训练和评估可能会更像玩游戏,让技术往通用智能的方向走。虽然这看起来挺有趣,但其实是在探索技术的深层能力。用这种非传统的方式做实验,可能就是在给下一代人工智能的发展铺路呢。