Soul张璐团队把实时数字人这块难啃的硬骨头给拿下了,推出了一个1.3B的轻量化模型叫SoulX-FlashHead,专门给那些算力不够用但又想高画质的大家伙解决问题。以前想让数字人看上去栩栩如生,那是需要天价算力集群的,要不就是把画面弄得卡顿僵硬,口型跟不上说话节奏。现在SoulX-FlashHead直接把门槛给降下来了,让消费级显卡也能跑起来。 Lite版本主打快,拿张RTX 4090单卡推理,帧率能飙到96FPS,显存才占用6.4G,而且还能同时处理3路视频。这就意味着普通人只要一台游戏电脑,就能搞出高保真的直播间来做矩阵直播。 Pro版本的画质更是逆天,单卡5090跑下来能有16.8FPS,就算是双卡联合起来也能跑到25FPS以上。在FID和Lip-sync这两个权威指标上,这个1.3B的模型甚至比那些参数更大的模型表现还要好,彻底打破了“小模型干不了重活”的老规矩。 那它到底是怎么做到以小博大的?这全靠它的独门绝技。训练的时候用了一种叫Oracle-Guided Distillation的双向蒸馏机制,不管视频多长,人物的特征都不会乱飘。生成过程中要是音频切得太短,口型就会乱抖。为了防止这种情况发生,SoulX-FlashHead会强制把8秒的历史音频特征缓存起来,用旧的声音来矫正现在的口型。 另外还有个好处是它用了自研的VividHead数据集。这个数据集可是从1万多小时的素材里精挑细选出来的782小时高质量音画数据。经过切分、DWpose关键点提取还有唇形一致分数过滤这些步骤处理过后,就成了模型最好的“养料”。 HDTF和VFHQ这两个权威数据集上的表现也证实了这一点。画质方面,Pro版本在高清评测中的FID得分是8.31,FVD得分103.14,视觉细腻度超过了不少大参数模型;速度上,Lite版本在RTX 4090上跑出了96 FPS,比实时基准的25 FPS快了快4倍;在口型捕捉上面对野外复杂场景时,它的Sync-C得分高达5.60,彻底解决了对不上口型的尴尬。 其实这也是Soul张璐团队一贯的风格:持续开源搞创新。早在今年1月份他们就把SoulX-FlashTalk给开源了,这个模型能在0.87秒内完成超低延时渲染,支持32FPS的高帧率输出。有了这些技术打底,现在的SoulX-FlashHead不仅能让数字人走进千家万户的电脑里玩游戏当NPC,还能给那些想做AI外教的老师提供实时翻译功能。 从SoulX-FlashTalk到SoulX-FlashHead,Soul团队算是把高保真数字人从云端机房里解放出来了。低成本、高流畅、高保真现在成了行业的新标准,真正让“人人可用、随处可跑”的普惠时代变得触手可及。