阿里云发布qwen3.5-omni全模态大模型

3月30日,阿里云给外界发布了最新的Qwen3.5-Omni全模态大模型,让它在音视频理解这块把别家都甩开了一大截。这一操作不光是技术上的升级,还预示着以后多模态模型能干的事儿更多了。 这个模型最厉害的地方在于Hybrid-Attention MoE这种架构,直接用到了Thinker和Talker模块里头,让它能把文本、图片、音频还有音视频都玩转。要是你用Qwen3.5-Omni-Plus版本,上下文长度能达到256K,甚至能处理超过10小时的音频输入,在400秒的720P视频上也毫无压力。这都是因为它在训练的时候用了海量的文本、视觉素材,甚至还有超过1亿小时的音视频数据。 语言能力上也不落下风,能支持113种语言和方言的语音识别,36种的语音生成。离线测试中,这个版本拿下了215项子任务的第一成绩,在音频、音视频处理方面的实力杠杠的。尤其是通用音频理解、推理、识别、翻译和对话能力上,已经全面超越了Gemini-3.1 Pro。而且它还能生成结构化的音视频描述,自动切片打点还能说清楚人物和音频的关系。 更神奇的是它能根据音频指令直接开始写代码,也就是Audio-Visual Vibe Coding。在实时交互这块儿也给足了面子,提供了五项核心功能:能被打断说话、能搜索、能调用复杂FunctionCall、能用语音直接控制对话,还有音色克隆技术。 ARIA技术解决了以前语音交互里读错或者漏读的问题。大家现在就能在QwenChat、HuggingFace和ModelScope上试试离线和实时Demo,或者直接通过阿里云百炼调用API来用。 这次开放API就是为了让企业用起来更顺手。既然多模态模型越来越成熟,相信以后肯定会出现更多有意思的应用。你觉得Qwen3.5-Omni会最先在哪几个领域做成生意呢?