“听声辨物”这么难，为什么“听声辨物”这么难？

在刚刚结束的ACM Multimedia 2023大会上，浙江大学计算机学院DCD实验室拿出了一篇新论文《CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation》，从全球的3072篇投稿里一路过关斩将，最终把最佳论文奖这个桂冠给捧回了家。这个奖项可是ACM International Conference on Multimedia从1993年就开始设立的，每年只评一篇，大家都把它叫做多媒体领域的“奥斯卡”。这次获奖不光是浙大拿到了这份荣耀，更是国内高校在这个顶级会议上第一次把A类奖项给拿了下来。为什么“听声辨物”这么难呢？主要有两个大问题：一个是语义太模糊，比如猫叫和小孩哭的声音可能很像，模型很容易搞混；另一个是跨模态对齐，得把声音精确地定位到每帧画面上的某个像素点，这在时间和空间两个维度上都得一一对应好，比单纯做一种模态的任务要复杂多了。浙大团队为了攻克这个难题，提出了一个叫CATR的框架。他们没有用那种粗粒度的融合方式，而是设计了一个“组合依赖”模块，在时间和空间维度上给音频特征和视频特征做各种排列组合。解码的时候又引入了“音频查询”机制，用音频嵌入作为锚点来实时检索目标位置。这套方法不仅能快速圈出监控里的可疑区域，还能在AR应用里让虚拟猫乖乖出现。 DCD实验室其实从1998年就开始搞科研了，一直围绕跨媒体计算、人工智能和大数据理论做研究。李可欣博士和杨宗鑫博士后在潘云鹤院士、杨易教授还有肖俊教授等人的带领下，把这些年积累的理论和技术成果给转化成了实际能用的音视频分割方案。整个团队从2005年潘院士布局跨媒体智能开始到现在，形成了一套“理论—技术—应用”的完整闭环。这次最佳论文的获奖只是证明了团队研究方向的正确性，也是声音指挥画面、算法走进生活的一个新起点。