清华与快手联手搞出了个新ai 架构，专门对付多媒体这块的难题。等到2026年2月，清华深圳国际研究生院

清华与快手联手搞出了个新AI架构，专门对付多媒体这块的难题。等到2026年2月，清华深圳国际研究生院把这事儿跟快手科技Kling团队的小伙伴们一块说了，提出了个叫EG-RL的办法，就是想让AI对图片视频的理解力更强。论文已经发在arXiv上了，编号是2602.13823v1，想看全文的朋友拿这个号码就能找到。现在搜个图片视频老跑偏，要么只能给固定答案，要么用生成式AI推理的时候容易跑题。EG-RL的妙招就是给AI配了个“教练”，把它的思路理顺了。这套系统里有两个主角：一个叫推理器专门负责想东西；另一个叫嵌入器，就像是经验丰富的老师给它打分指导。这样一来，AI在反馈里慢慢学会怎么顺着目标去想，就不会再瞎琢磨了。研究团队还整了个新思考模式叫T-CoT，能让AI不光分析内容，还能把关键证据标出来。比如看图里的“红色汽车”，AI不光能把车框出来，还能把相关的词抽出来。这种方式让推理过程变得透明可查，以后改起来也方便。为了证明EG-RL真管用，团队在MMEB-V2和UVRB这两个基准上试了试。MMEB-V2里面有78个任务让AI去理解多媒体。结果显示，EG-RL在找图像位置的时候准确率飙到了91.4%，在整个测试里得了68.1分，把之前最厉害的模型都给比下去了。UVRB是专门测视频检索的，EG-RL表现也不错，平均分排在了第一位。这不仅是个技术突破，还为以后多媒体AI的发展指了条路。把推理和嵌入合二为一，AI就能更准地读懂人心里的意思。这个透明的思考过程也解决了大家总担心的AI不解释问题。这在医疗或者开车这种需要特靠谱的场景里特别有用。总之，清华和快手这次联手把基础给打牢了，也让大家看到了AI在看懂复杂多媒体内容上的巨大潜力。