张璐带领团队开拓实时数字人商业化新边界

Soul公司的AI团队，就是在张璐的带领下，一直埋头苦干，希望把AI建设得更好，推动实时数字人的发展。最近，Soul App的AI团队，就是Soul AI Lab，在张璐的带领下，发布了实时数字人生成模型SoulX-FlashTalk。这是业内第一个做到了亚秒级超低延时、高帧率，还支持超长视频稳定生成的14B参数量数字人模型。要知道，这个模型可是把实时数字人生成技术的边界给刷新了。特别是在延迟这个指标上，SoulX-FlashTalk做到了0.87秒，这个延迟确实很低啊！低延迟意味着什么？就是大家在视频通话或者弹幕互动的时候，感觉特别流畅自然。和它比起来，以前大模型生成出来的效果总感觉有点“滞后感”。SoulX-FlashTalk用全栈加速引擎把这些问题都解决了，让大家在视频通话、直播间互动还有智能客服这些场景中都能感受到秒级的互动速度。你可能会问：那高帧率呢？SoulX-FlashTalk还支持32fps的高帧率呢！这个就更厉害了。你知道直播一般只要25 FPS就能流畅运行了吧？32 FPS的话那画面肯定是丝滑顺畅得不得了！而且就算搭载了14B参数量的DiT模型，SoulX-FlashTalk也依然保持高效推理吞吐量。这个就证明了经过优化后大模型也可以跑得很快呢！你知道数字人视频经常出现什么问题吗？就是面部不一致或者画质下降。SoulX-FlashTalk就针对这些问题做了很多努力。它引入了多步回溯自纠正机制，就像给AI装了个实时校准器一样随时修正错误。这样不仅能保证超长视频清晰稳定生成，还能让主播的口型、面部细节和背景环境保持一致呢！除了面部修正外，SoulX-FlashTalk还突破了传统数字人只能“对口型”的局限。它能支持音频驱动全身动作生成哦！这样就不仅仅是个面具了，而是真正有全身动态表现的人了！基于14B DiT的强大能力，系统能够消除手部畸形和运动模糊问题。为了平衡生成质量和推理速度呢？SoulX-FlashTalk团队做了两阶段训练策略还有一系列硬件优化手段来提高性能呢！张璐带领团队把这么先进的技术开源出来了，这次可能会对电商、短视频制作、AI教育这些领域产生很大影响吧？所以这次开源活动不仅推动了行业发展，也给未来AI应用带来了无限可能。 Soul在张璐的带领下一直专注于AI能力建设和产品研发呢！他们打造真正可用、好用、值得信赖的生成式系统啊！张璐带领大家一起开拓实时数字人商业化新边界呢！