lvlm的推理速度拖后腿,这就成了它实际落地的拦路虎

随着咱们对高清图和长视频的需求越来越高,大家伙儿用的大型视觉语言模型,也就是LVLMs,光处理Token这事儿就成了老大难。推理速度拖后腿,这就成了它实际落地的拦路虎。四川大学的那帮人最近搞出了个叫V²Drop的招儿,能让Token无损加速,性能直接涨了1.87倍。以前的压缩法子大多靠算注意力权重来挑重要的词,但这路子毛病太多。第一是有末端偏倚,总把后头的词给留着,前头的关键词反倒容易被忽略。第二是算注意力权重跟高效运算打架,搞不好没法用快速的算法。V²Drop的核心是换了个法子,用L2Norm变化量来评判Token。研究发现,词在LLM里的变化量跟任务相关性高得很,说明这东西是衡量重要性的好指标。他们就用多阶段剪枝的办法,一步步算每个词的变化量,再按高低排序,只把最重要的留下来。做实验的时候发现效果挺好,比如图像理解任务里只留66.7%的Token,性能就能冲到97.6%。视频任务也一样给力,留25%的Token也有98.6%。不仅快还准。而且在生成速度上也帮了大忙,延迟给降了31.5%,吞吐量也到了9.01 items/s。这路子彻底把LVLM的推理加速给盘活了,展示了用变化量做框架在处理图像视频时的威力。这创新方法不光让性能变好了,还给以后的研究指了条明路,值得大家好好关注一下。