阿里云发布qwen3.5-omni全模态大模型

3月30日，阿里云给外界发布了最新的Qwen3.5-Omni全模态大模型，让它在音视频理解这块把别家都甩开了一大截。这一操作不光是技术上的升级，还预示着以后多模态模型能干的事儿更多了。这个模型最厉害的地方在于Hybrid-Attention MoE这种架构，直接用到了Thinker和Talker模块里头，让它能把文本、图片、音频还有音视频都玩转。要是你用Qwen3.5-Omni-Plus版本，上下文长度能达到256K，甚至能处理超过10小时的音频输入，在400秒的720P视频上也毫无压力。这都是因为它在训练的时候用了海量的文本、视觉素材，甚至还有超过1亿小时的音视频数据。语言能力上也不落下风，能支持113种语言和方言的语音识别，36种的语音生成。离线测试中，这个版本拿下了215项子任务的第一成绩，在音频、音视频处理方面的实力杠杠的。尤其是通用音频理解、推理、识别、翻译和对话能力上，已经全面超越了Gemini-3.1 Pro。而且它还能生成结构化的音视频描述，自动切片打点还能说清楚人物和音频的关系。更神奇的是它能根据音频指令直接开始写代码，也就是Audio-Visual Vibe Coding。在实时交互这块儿也给足了面子，提供了五项核心功能：能被打断说话、能搜索、能调用复杂FunctionCall、能用语音直接控制对话，还有音色克隆技术。 ARIA技术解决了以前语音交互里读错或者漏读的问题。大家现在就能在QwenChat、HuggingFace和ModelScope上试试离线和实时Demo，或者直接通过阿里云百炼调用API来用。这次开放API就是为了让企业用起来更顺手。既然多模态模型越来越成熟，相信以后肯定会出现更多有意思的应用。你觉得Qwen3.5-Omni会最先在哪几个领域做成生意呢？