京产多模态大模型研究成果刊发《自然》 正刊首证自回归统一路线可行

长期以来,人工智能在处理不同类型信息时一直面临一个核心难题:文字理解、图像生成、视频处理往往各用一套方法与模型。这种“分科而治”的模式使系统架构更复杂、协同更困难,逐渐成为多模态人工智能发展的瓶颈。其根源在于,多模态学习的技术路线长期分化。自2018年以来,以GPT为代表的大模型通过“预测下一个词元”的自回归方法取得重大突破,推动生成式人工智能快速发展。此外,多模态模型多采用对比学习、扩散模型等专门路线,与自回归方法并行演进。不同路线各有优势,但也增加了系统集成与统一扩展的难度。北京智源人工智能研究院的这项研究提出了新的解法。研究团队开发的Emu3模型借鉴GPT的关键思路,将“预测下一个词元”的自回归方法拓展到多模态领域,实现了对文本、图像和视频的统一理解与生成。其意义在于,人工智能有望用同一套逻辑框架处理和生成不同形态的信息,减少模型体系割裂带来的成本。实验结果显示,该统一方法在图片生成、图文理解、视频创作等任务上的表现已可与多类专用模型相当,同时具备更强的通用性与扩展空间。《自然》期刊编辑在点评中指出,Emu3在生成与感知任务上的表现可与采用专门路线的模型相媲美,这对构建可扩展、统一的多模态智能系统很重要。更值得关注的是,沿着这一核心路径迭代的Emu3.5模型已初步展现对物理世界运行规律的学习与模拟能力,能够尝试预测场景的下一步变化。这表明研究团队正探索更通用、也更接近人类认知方式的大模型与智能体方向。这项成果的发表具有多重意义:首先,它更验证自回归方法在构建统一生成式人工智能路线中的价值,为后续研究提供了清晰的技术路径;其次,它体现我国科研机构在前沿人工智能领域的持续创新能力,显示国内大模型研究正在接近国际前沿;再次,统一的多模态学习框架有望降低系统复杂度,推动多模态人工智能更快走向实际应用。

这项成果的发表,为多模态智能系统的统一化探索提供了重要参考。随着技术持续迭代,“统一智能”的设想正逐步走向可实现的工程路径——未来或可期待一种更像人类一样综合处理多元信息的数字系统。这既是一次关键的技术推进,也为下一阶段的竞争与应用落地奠定了基础。(全文完)