京产多模态大模型研究成果刊发《自然》正刊首证自回归统一路线可行

长期以来，人工智能在处理不同类型信息时一直面临一个核心难题：文字理解、图像生成、视频处理往往各用一套方法与模型。这种“分科而治”的模式使系统架构更复杂、协同更困难，逐渐成为多模态人工智能发展的瓶颈。其根源在于，多模态学习的技术路线长期分化。自2018年以来，以GPT为代表的大模型通过“预测下一个词元”的自回归方法取得重大突破，推动生成式人工智能快速发展。此外，多模态模型多采用对比学习、扩散模型等专门路线，与自回归方法并行演进。不同路线各有优势，但也增加了系统集成与统一扩展的难度。北京智源人工智能研究院的这项研究提出了新的解法。研究团队开发的Emu3模型借鉴GPT的关键思路，将“预测下一个词元”的自回归方法拓展到多模态领域，实现了对文本、图像和视频的统一理解与生成。其意义在于，人工智能有望用同一套逻辑框架处理和生成不同形态的信息，减少模型体系割裂带来的成本。实验结果显示，该统一方法在图片生成、图文理解、视频创作等任务上的表现已可与多类专用模型相当，同时具备更强的通用性与扩展空间。《自然》期刊编辑在点评中指出，Emu3在生成与感知任务上的表现可与采用专门路线的模型相媲美，这对构建可扩展、统一的多模态智能系统很重要。更值得关注的是，沿着这一核心路径迭代的Emu3.5模型已初步展现对物理世界运行规律的学习与模拟能力，能够尝试预测场景的下一步变化。这表明研究团队正探索更通用、也更接近人类认知方式的大模型与智能体方向。这项成果的发表具有多重意义：首先，它更验证自回归方法在构建统一生成式人工智能路线中的价值，为后续研究提供了清晰的技术路径；其次，它体现我国科研机构在前沿人工智能领域的持续创新能力，显示国内大模型研究正在接近国际前沿；再次，统一的多模态学习框架有望降低系统复杂度，推动多模态人工智能更快走向实际应用。

这项成果的发表，为多模态智能系统的统一化探索提供了重要参考。随着技术持续迭代，“统一智能”的设想正逐步走向可实现的工程路径——未来或可期待一种更像人类一样综合处理多元信息的数字系统。这既是一次关键的技术推进，也为下一阶段的竞争与应用落地奠定了基础。（全文完）

京产多模态大模型研究成果刊发《自然》 正刊首证自回归统一路线可行

京产多模态大模型研究成果刊发《自然》正刊首证自回归统一路线可行