实时交互 AI 技术基建，Soul 打出了王牌_科普教育

实时交互 AI 技术基建，Soul 打出了王牌

创始人

2026-03-20 21:03:19

布局 AI 生态，让社交回归情感本质。

作者｜十九

编辑｜郑玄

从2025年到2026年，Soul 的开源动作几乎没有停歇。

3 月 16 日，Soul AI 团队（Soul AI Lab) 发布了新的开源模型 SoulX-LiveAct，技术报告中具体提到，该工作能够在 2 张 H100/H200 条件下，达到 20 FPS 的实时流式推理能力，且支持输入图像、音频和指令驱动，即可生成表情生动、情绪可控、拥有丰富全身动作的实时数字人视频。

在此之前，这个团队已先后开源了多个模型，包括了实时数字人生成方向（SoulX-FlashHead、SoulX-FlashTalk），歌声合成方向（SoulX-Singer），播客语音合成方向（SoulX-Podcast）等，覆盖围绕交互的多个维度。

传统印象中，Soul 一直被视为「应用平台」，如今选择开源本身便充满了讨论点。这不仅意味着平台携手开源社区构建起丰富 AI 应用生态的新可能，更重要的是，这些工作围绕的核心点是「多模态实时交互」与「真实场景可用」，指向了「AI 社交」时代核心技术标准的重新定义。

实时数字人：从能用到好用

关注到「Soul AI Lab」这个标签，是因为近来，它高频出现在 AI 社区分享交流群中。

近期，这个团队最新发布的 SoulX-LiveAct 面向实时数字人生成领域。

年初，字节旗下音视频生成模型 Seedance 展现出惊艳的运镜能力和细腻的视频效果，让大众意识到了 AI 在影视、内容创作的巨大潜力，也再次反映出在「落地」成为 AI 领域共识的当下，行业对于大模型的需求已经不再是「能不能用」而是「好不好用」。

实时数字人领域，高画质、长时稳定性、低部署成本长期被视为「不可能三角」。行业在具体落地技术时，其实长期面临一个问题：视频生成时长一旦拉长，画面稳定性与人物一致性会明显下降，常见的 Bug 包括身份漂移、细节丢失、画面闪烁，以及实时推理成本随时长上升等等。通过底层算法的重构，SoulX-LiveAct 想要尝试解决这些问题。

不同于传统的 AR diffusion 对历史记忆的无节制依赖，SoulX-LiveAct 在「条件传播方式」和「历史记忆管理」两个维度实现了技术闭环，抛弃了随时长线性增长的沉重缓存机制，通过全局特征锁定极致，既能精准「带得动」超长时段的历史上下文，又不会因缓存膨胀拖累推理效率。这意味着，数字人具备了在小时级甚至全天候长直播中的实战能力。

通常情况下，长视频最容易「翻车」的不是第一分钟，而是第十分钟、第三十分钟：可能是脸漂、发型/衣纹漂移，也可能是饰品忽隐忽现，甚至口型逐步失配。SoulX-LiveAct 能在更长时间窗口内保持身份一致性与关键细节持续稳定。

商业落地层面，SoulX-LiveAct 展现了极强的工程化能力与成本控制优势。仅需 2 张 H100/H200 即可达到 20 FPS 的实时流式推理能力，端到端延迟被压缩至约 0.94s。通过单帧计算成本降低到 27.2 TFLOPs / frame，SoulX-LiveAct 显著减轻了算力压力，让原本专属于顶级服务器的高品质实时交互，具备了向消费级硬件下放的可能。

视频由 SoulX-LiveAct 生成，人声由 Soul 开源的另一个工作 SoulX-Podcast 生成

事实上，面对实时数字人方向的「能用」到「好用」，Soul 已经推出了多个解决方案。

春节前，Soul AI Lab 发布的 SoulX-FlashTalk——行业中首个能够实现 0.87s 亚秒级超低延时、32fps 高帧率，并支持超长视频稳定生成的 14B 数字人模型。在开源后，快速冲入全球最大 AI 开源社区 Hugging Face I2V（Image To Video）趋势榜 TOP5，目前在 Github 已积累了 1.1k+Star。

而另一个同样是春节前推出的 1.3B 参数轻量化模型 SoulX-FlashHead，Lite 版本在单张消费级显卡（RTX 4090）上跑出 96FPS 的工业级速度，同时能够实现高质量画质，在发布后也快速进入 HuggingFace I2V 趋势榜 TOP4。

实时交互：AI 时代的技术基建

为什么 Soul 在持续死磕「实时交互」方向？

举个简单的例子，大模型爆火后，或许是 ChatGPT 定义了面向 C 端的基本形态，后续所有的产品基本均采用了类似的交互模式——用文字或语音，人与 AI 交互过程中，完成信息的获取和内容的处理、创作。

而实时数字人生成技术则意味着这种交互升维到视觉层面。ta 拥有一个完整的，可互动的视觉形象，且这个视频互动的过程是「双向」的，ta 不只是会回应你的问题和指令，还会自动根据语境，判断互动时机、节奏。是一种再自然不过，类似现实交流的场景。

此前，极客公园张鹏曾有一个判断，Location（位置）作为一条技术栈，最终成为了整个移动互联网时代最不可或缺的底层基础设施之一。而「有效的主动性」将成为 AI 时代至关重要的技术栈。「它让你原有的产品，突破了纯工具的被动，拥有了主动对用户一次次满足预期，甚至超预期中建立信任的可能。在此过程中形成的「关系」，正是 AI 产品独有的延伸资产，是你突破用户 LTV（life time value，生命周期总价值）天花板、构筑真正护城河的关键。」

如今，实时交互，同样创造了一种超预期的体验，这也是 AI 在社交场景的核心技术难点之一。

因此，聚焦实时交互，Soul 在多模态方向均有探索，除了实时数字人方向，此前，Soul 还先后开源了语音合成模型 SoulX-Podcast、歌声合成模型 SoulX-Singer、全双工语音对话控制模块 SoulX-Duplug。

其中，SoulX-Podcast 是一款专为多人、多轮对话场景打造的语音生成模型，支持中、英、川、粤等多语种/方言与副语言风格，能稳定输出超 60 分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。在去年10月底发布后快速登顶 Hugging Face TTS 趋势榜，Github Star 数目前超过 3.2K。

实时数字人、语音、歌声...... 基于这些能力，AI 能实现更多的互动可能，例如社交场景中 AI 不会「把天聊死」，即便面对那些相对内向，社交能力较弱的「I 人」，也能拉长整个互动的周期，并且具备丰富的演绎（如能歌会唱）能力，带来不一样的交流体验。

这一整套的大模型能力，让 AI 从「应答式」交互，变成了「陪伴」，产品定义也从简单的工具使用，到真正的「伙伴」和数字交互「入口」。

AI社交还有什么新可能？

一直以来，Soul 在大众层面的标签，更多是与 Z 世代、年轻人高度绑定的社交产品。

目前的开源动作，成为观察其 AI 布局的新切入口。这种「反直觉」布局的背后并非单纯的炫技，而是其深刻的产品洞察：通用的服务无法交付差异化的社交体验。

Soul 的 AI 基因并非始于大模型热潮。其早期的智能推荐系统已在尝试用 AI 解决人与人的匹配效率和质量问题。进入大模型时代，Soul 发现通用模型虽能「对答如流」，却无法交付具有情感温差和极致在场感的社交体验，自研了 SoulX 大模型。

与此同时，社交场景对响应延迟有着极高要求，为实现亚秒级反馈，Soul 必须在全双工通信、低延迟传输、多模态交互等底层技术上「死磕」。这些为解决社交核心痛点打磨的工业级模型，也天然具备了对外技术输出的价值。

不同于实验室里的 Demo，Soul 的模型已经经过真实、高并发、复杂社交场景的验证，这意味着开发者可以「拿来即用」，极大地降低了技术落地门槛。

相较于电影、小说等传统内容产品所呈现的封装化、静态化特征，Soul 认为未来内容、数字娱乐产品、社交等或将走向流动交互、实时介入的全新形态。这种对未来形态的预判，促使其必须掌握并共享底层工具。

作为一个兴趣社交社区，Soul 的底层产品一直建立在真人互动的基础上，所以在 AI 社交的探索过程中，一直保持着谨慎。

Soul 的目标也很明确——AI 社交最终要促进的，还是人与人的沟通。因此，AI 在该平台的应用路径清晰，AI 帮助用户交朋友，增强现实社交网络，构建有力、多元的社会支持体系：通过聊天辅助、推荐匹配等功能，提升连接效率和质量，如协助用户发起对话、创作内容、打破社交壁垒、提升自信，交到兴趣相投的好友。

对于 Soul 自身而言，开源是将其从单一 App 进化为生态系统的关键一步：一方面在 AI 社交标准尚未确立之际，率先开源即可掌握优质实时交互的定义权；另一方面开发者基于其技术基建创造的新玩法，也将反向反哺社区，持续丰富 Soul 的 AI 社交生态体验。

接下来，Soul 的 AI 生态价值，或许将能够外溢到社交之外的更多交互领域。比如在电商直播中，数字人主播常常存在「假人感」严重、互动有延迟等问题。利用 SoulX-FlashTalk 0.87 秒的超低延时和 32fps 的高帧率，数字人能实现如同真人般的秒级回复反馈；在 AI 客服场景中，机械式问答一直被诟病，SoulX-LiveAct不仅能让数字人拥有生动的表情，甚至可以控制情绪，用具有「在场感」的数字人服务改变枯燥的售后咨询。在线教育场景中，最稀缺的是陪伴感，SoulX-Podcast 等技术，能支持能稳定输出 60 分钟以上的连贯对话，覆盖完整周期的教学内容、讲解，AI 教师可以与学生开展长时间深度交流。

在 AI 领域热议「Agent 替代人类」的当下，Soul 的立场显得格外清醒：AI 不是替代人，而是链接人。AI 社交也不是简单的信息交换，而是跨越时空的、具备「在场感」的情感共振。AI 的角色应该是帮助用户优化表达、打破僵局、建立同频。因此，Soul 选择开源，本质上是在为 AI 时代的社交「修路」。

从一个社交平台，到一家输出底层能力的 AI 科技公司，Soul 正在用开源证明：AI 时代，最好的防守是开放，最深的护城河是生态。随着技术门槛逐渐降低，交互体验不断升级，社交也将逐渐回归情感链接的本质。

*头图来源：视觉中国

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

你如何看待 SoulX-LiveAct ？

上一篇：腾讯元宝AI更换Logo，长眼睛了

下一篇：天天315·放心365｜普通人用AI赚钱，真能月入过万？警惕AI培训班背后的收割陷阱

实时交互 AI 技术基建，Soul 打出了王牌

相关内容

热门资讯