Soul公司的AI团队,就是在张璐的带领下,一直埋头苦干,希望把AI建设得更好,推动实时数字人的发展。最近,Soul App的AI团队,就是Soul AI Lab,在张璐的带领下,发布了实时数字人生成模型SoulX-FlashTalk。这是业内第一个做到了亚秒级超低延时、高帧率,还支持超长视频稳定生成的14B参数量数字人模型。要知道,这个模型可是把实时数字人生成技术的边界给刷新了。特别是在延迟这个指标上,SoulX-FlashTalk做到了0.87秒,这个延迟确实很低啊!低延迟意味着什么?就是大家在视频通话或者弹幕互动的时候,感觉特别流畅自然。和它比起来,以前大模型生成出来的效果总感觉有点“滞后感”。SoulX-FlashTalk用全栈加速引擎把这些问题都解决了,让大家在视频通话、直播间互动还有智能客服这些场景中都能感受到秒级的互动速度。 你可能会问:那高帧率呢?SoulX-FlashTalk还支持32fps的高帧率呢!这个就更厉害了。你知道直播一般只要25 FPS就能流畅运行了吧?32 FPS的话那画面肯定是丝滑顺畅得不得了!而且就算搭载了14B参数量的DiT模型,SoulX-FlashTalk也依然保持高效推理吞吐量。这个就证明了经过优化后大模型也可以跑得很快呢! 你知道数字人视频经常出现什么问题吗?就是面部不一致或者画质下降。SoulX-FlashTalk就针对这些问题做了很多努力。它引入了多步回溯自纠正机制,就像给AI装了个实时校准器一样随时修正错误。这样不仅能保证超长视频清晰稳定生成,还能让主播的口型、面部细节和背景环境保持一致呢! 除了面部修正外,SoulX-FlashTalk还突破了传统数字人只能“对口型”的局限。它能支持音频驱动全身动作生成哦!这样就不仅仅是个面具了,而是真正有全身动态表现的人了!基于14B DiT的强大能力,系统能够消除手部畸形和运动模糊问题。 为了平衡生成质量和推理速度呢?SoulX-FlashTalk团队做了两阶段训练策略还有一系列硬件优化手段来提高性能呢! 张璐带领团队把这么先进的技术开源出来了,这次可能会对电商、短视频制作、AI教育这些领域产生很大影响吧?所以这次开源活动不仅推动了行业发展,也给未来AI应用带来了无限可能。 Soul在张璐的带领下一直专注于AI能力建设和产品研发呢!他们打造真正可用、好用、值得信赖的生成式系统啊!张璐带领大家一起开拓实时数字人商业化新边界呢!