mimo-v2-omni全模态基座模型

小米这次拿出了个大杀器——Xiaomi MiMo-V2-Omni全模态基座模型。3月19日这天晚上，小米突然在发布会前放出消息，给全球最大的API聚合平台OpenRouter偷偷上架了早期测试版，代号是“Healer Alpha”。大家都知道那个平台竞争很激烈，但这个模型根本没做什么宣传，调用量就自然冲到了前排，在OpenClaw的PinchBench测评上更是拿下了第一名，这能力得到了用户和专业测评的认可。MiMo-V2-Omni把音频、视觉、语音全都融合到了一起，专门用来对付现实世界里复杂的交互和执行任务。它用统一的架构把“感知”和“行动”绑在一起，天生就能调用工具、执行函数，还能操作GUI界面，接入各种Agent框架都没问题。这模型音频理解方面的表现特别强悍，能听清楚环境声音还有多个人说话，就算是听超过10小时的长音频也不在话下，综合能力已经超过了Gemini 3 Pro。图像理解这块也不差，它懂多学科的推理和复杂图表分析，水平比Claude Opus 4.6还高。视频理解这块更是牛，它能原生地输入音视频信号，用创新技术做出很好的情境感知和未来推理。最关键的是它不光会理解还会干活，能跨模态看懂复杂环境，自己制定计划然后去执行，遇到问题还能实时改策略，最后把结果直接端给你。在真实数字环境的评测中它表现得跟Gemini 3 Pro差不多，感知能力和行动能力结合起来形成了优势。经过一周的优化后，这个模型变得更稳了。现在开发者可以通过API调用它了。调用价格也很实惠，输入是0.4美元/百万tokens，输出是2美元/百万tokens。开发者可以直接接入指定平台来用。小米还联合了OpenClaw、OpenCode等五大Agent开发框架团队，给大家提供一周的免费接口支持。这模型在很多场景里都很亮眼，比如能看懂电影里的隐喻和情感；听长音频也能精准提炼核心论点和逻辑脉络；配合OpenClaw框架甚至能像真人一样操作浏览器，选品比价砍价下单、做短视频这些复杂操作它都能搞定。如果碰到网页报错或者多标签切换的问题它也能自己解决。在智能办公这块它和金山办公合作了WPS Office，可以直接生成高质量的Word、结构化Excel、规范排版的PDF还有完整的PPT。这就跳出了单纯聊天机器人的限制，真正帮大家提高了工作效率。