清华与快手联手搞出了个新AI架构,专门对付多媒体这块的难题。等到2026年2月,清华深圳国际研究生院把这事儿跟快手科技Kling团队的小伙伴们一块说了,提出了个叫EG-RL的办法,就是想让AI对图片视频的理解力更强。论文已经发在arXiv上了,编号是2602.13823v1,想看全文的朋友拿这个号码就能找到。现在搜个图片视频老跑偏,要么只能给固定答案,要么用生成式AI推理的时候容易跑题。EG-RL的妙招就是给AI配了个“教练”,把它的思路理顺了。这套系统里有两个主角:一个叫推理器专门负责想东西;另一个叫嵌入器,就像是经验丰富的老师给它打分指导。这样一来,AI在反馈里慢慢学会怎么顺着目标去想,就不会再瞎琢磨了。 研究团队还整了个新思考模式叫T-CoT,能让AI不光分析内容,还能把关键证据标出来。比如看图里的“红色汽车”,AI不光能把车框出来,还能把相关的词抽出来。这种方式让推理过程变得透明可查,以后改起来也方便。 为了证明EG-RL真管用,团队在MMEB-V2和UVRB这两个基准上试了试。MMEB-V2里面有78个任务让AI去理解多媒体。结果显示,EG-RL在找图像位置的时候准确率飙到了91.4%,在整个测试里得了68.1分,把之前最厉害的模型都给比下去了。UVRB是专门测视频检索的,EG-RL表现也不错,平均分排在了第一位。 这不仅是个技术突破,还为以后多媒体AI的发展指了条路。把推理和嵌入合二为一,AI就能更准地读懂人心里的意思。这个透明的思考过程也解决了大家总担心的AI不解释问题。这在医疗或者开车这种需要特靠谱的场景里特别有用。 总之,清华和快手这次联手把基础给打牢了,也让大家看到了AI在看懂复杂多媒体内容上的巨大潜力。