lvlm的推理速度拖后腿，这就成了它实际落地的拦路虎

随着咱们对高清图和长视频的需求越来越高，大家伙儿用的大型视觉语言模型，也就是LVLMs，光处理Token这事儿就成了老大难。推理速度拖后腿，这就成了它实际落地的拦路虎。四川大学的那帮人最近搞出了个叫V²Drop的招儿，能让Token无损加速，性能直接涨了1.87倍。以前的压缩法子大多靠算注意力权重来挑重要的词，但这路子毛病太多。第一是有末端偏倚，总把后头的词给留着，前头的关键词反倒容易被忽略。第二是算注意力权重跟高效运算打架，搞不好没法用快速的算法。V²Drop的核心是换了个法子，用L2Norm变化量来评判Token。研究发现，词在LLM里的变化量跟任务相关性高得很，说明这东西是衡量重要性的好指标。他们就用多阶段剪枝的办法，一步步算每个词的变化量，再按高低排序，只把最重要的留下来。做实验的时候发现效果挺好，比如图像理解任务里只留66.7%的Token，性能就能冲到97.6%。视频任务也一样给力，留25%的Token也有98.6%。不仅快还准。而且在生成速度上也帮了大忙，延迟给降了31.5%，吞吐量也到了9.01 items/s。这路子彻底把LVLM的推理加速给盘活了，展示了用变化量做框架在处理图像视频时的威力。这创新方法不光让性能变好了，还给以后的研究指了条明路，值得大家好好关注一下。