mimo-v2-omni全模态基座模型

小米这次拿出了个大杀器——Xiaomi MiMo-V2-Omni全模态基座模型。3月19日这天晚上,小米突然在发布会前放出消息,给全球最大的API聚合平台OpenRouter偷偷上架了早期测试版,代号是“Healer Alpha”。大家都知道那个平台竞争很激烈,但这个模型根本没做什么宣传,调用量就自然冲到了前排,在OpenClaw的PinchBench测评上更是拿下了第一名,这能力得到了用户和专业测评的认可。MiMo-V2-Omni把音频、视觉、语音全都融合到了一起,专门用来对付现实世界里复杂的交互和执行任务。它用统一的架构把“感知”和“行动”绑在一起,天生就能调用工具、执行函数,还能操作GUI界面,接入各种Agent框架都没问题。 这模型音频理解方面的表现特别强悍,能听清楚环境声音还有多个人说话,就算是听超过10小时的长音频也不在话下,综合能力已经超过了Gemini 3 Pro。图像理解这块也不差,它懂多学科的推理和复杂图表分析,水平比Claude Opus 4.6还高。视频理解这块更是牛,它能原生地输入音视频信号,用创新技术做出很好的情境感知和未来推理。最关键的是它不光会理解还会干活,能跨模态看懂复杂环境,自己制定计划然后去执行,遇到问题还能实时改策略,最后把结果直接端给你。在真实数字环境的评测中它表现得跟Gemini 3 Pro差不多,感知能力和行动能力结合起来形成了优势。 经过一周的优化后,这个模型变得更稳了。现在开发者可以通过API调用它了。调用价格也很实惠,输入是0.4美元/百万tokens,输出是2美元/百万tokens。开发者可以直接接入指定平台来用。小米还联合了OpenClaw、OpenCode等五大Agent开发框架团队,给大家提供一周的免费接口支持。这模型在很多场景里都很亮眼,比如能看懂电影里的隐喻和情感;听长音频也能精准提炼核心论点和逻辑脉络;配合OpenClaw框架甚至能像真人一样操作浏览器,选品比价砍价下单、做短视频这些复杂操作它都能搞定。如果碰到网页报错或者多标签切换的问题它也能自己解决。在智能办公这块它和金山办公合作了WPS Office,可以直接生成高质量的Word、结构化Excel、规范排版的PDF还有完整的PPT。这就跳出了单纯聊天机器人的限制,真正帮大家提高了工作效率。