m2.7:ai界的“龙虾”

MiniMax把旗下的新一代Agent大模型M2.7给公布了。就在3月18日这天,MiniMax正式把M2.7这款旗舰Agent大模型给推了出来,而且这次还头一回把“模型自我进化”的路数给展示出来。这玩意儿是靠搭了个Agent Harness体系才做到的,把自己给深度卷进了训练和优化的流程里。在有些搞研发的活儿里头,它甚至能把30%到50%的活计给包圆了。结果呢?效果这块儿提升了大概30%。最核心的本事是在SWE-bench Pro这套评价体系里得了56.22%的高分,已经跟国际一线的水平靠得很近了。在VIBE-Pro和Terminal Bench 2这类真正干工程活儿的测试里表现也不赖,不光能搞定从开头到结尾的项目交付,就连那种复杂系统的理解力都挺强。要是看办公场景这块儿,它在GDPval-AA的ELO评分是1495分,这是开源里面最高的一档。同时,它在处理Office文档以及多轮编辑方面的能力也有了明显提升。M2.7现在已经在MiniMax的Agent平台和开放平台上把全球的大门都给打开了。大伙都觉得,随着AI界那只“龙虾”(即Agent范式)越来越火落地也更快了,M2.7这一下子就把AI的发展阶段给标志出来了:从今往后AI不光是个干活的工具了,而是变成了那种能自己演化的系统。