Soul张璐带领团队攻坚SVS开源,SoulXSinger赋能AI音乐创作落地
创始人
2026-03-06 16:28:37

在AI音乐的版图中,歌声合成长期处于“高需求、低供给”的尴尬境地——用户渴望个性化演唱,但歌唱语音合成领域(SVS,Singing Voice Synthesis)整体进展相对缓慢。在这一背景下,Soul张璐带领团队选择迎难而上,联合吉利汽车研究院人工智能中心(AIC)、天津大学视听觉认知计算团队和西北工业大学音频语音与语言处理研究组(ASLP@NPU),正式开源歌声合成模型SoulX-Singer,推动SVS技术从实验室走向规模化应用。

在过去的一段时间里,随着技术的不断进步,语音合成与音乐生成领域迎来了前所未有的快速发展。然而,与这一热潮形成对比的是,行业内仍缺乏一个真正稳定可用、同时支持零样本(Zero-shot)生成的开源歌声合成(SVS)模型,这很大程度上制约了 SVS 技术在真实业务场景中的应用与落地。

SVS(Singing Voice Synthesis,歌唱语音合成)是一种根据歌词和乐谱生成歌声的技术。相比于普通语音合成(TTS,Text-to-Speech Synthesis),它需要对音高、音律以及演唱风格等方面进行精细控制,以便实现自然且富有表现力的歌声输出。与近期热门的 Music Generation(自动生成整段音乐或伴奏)不同,SVS 专注于可由 MIDI 控制的人声生成,这种特性使得SVS在虚拟歌手、歌词演绎以及多语言歌声创作等领域展现出独特的价值和潜力。

正是在这种背景下,SoulX-Singer应运而生并正式开源。作为一个面向真实工业应用场景设计的高质量零样本歌声合成模型,SoulX-Singer的核心目标是在未见过特定歌手音色的情况下,依然能够实现稳定、自然且高度可控的歌声生成。为了达到这一目标,开发团队在模型的整体架构、建模范式以及控制机制等多个方面进行了针对SVS场景的系统性优化和设计。

在模型架构上,SoulX-Singer 采用基于Flow Matching 的生成建模范式,并将歌声合成问题建模为一种 audio infilling(音频补全)任务。特别地,针对歌声合成中“歌词—旋律—发声”三者强耦合的特点,SoulX-Singer 在建模阶段显式引入了 note 级别的对齐机制,确保每一个音符的起止时间、音高以及持续时长都能够被准确建模和独立控制。

值得一提的是,SoulX-Singer之所以能够在稳定性、可控性和泛化能力方面达到当前开源SVS模型的领先水平,离不开其超过42000小时的高质量训练数据的支持。这些数据覆盖了多种语言、音色及演唱风格,为模型提供了坚实的基础。这也意味着,即使面对未曾见过的歌手和复杂音乐条件,SoulX-Singer也能保持稳定的高质量合成表现。

此外,SoulX-Singer不仅支持基于Music Score(MIDI)的驱动生成,还支持基于Melody的歌声合成控制方式。前者适用于音乐创作、歌词编辑等场景,后者则更适合于翻唱、风格迁移等应用场景。SoulX-Singer还在GMO-SVS和SoulX-Singer-Eval两个数据集上进行了严格的评测,证明了其在语义清晰度、歌手相似度、基频一致性以及整体合成质量等多个维度上的优越性能。作为Soul AI团队开源工作的延续,SoulX-Singer为UGC音乐创作等领域带来了更加鲁棒、灵活且易于落地的歌声合成解决方案,标志着该领域的一个重要里程碑。

SoulX-Singer的正式开源标志着SVS技术迈入新阶段,彰显了Soul张璐带领团队在AI与音乐深度融合领域的战略远见。Soul会持续优化SoulX-Singer的能力边界,进一步拓展其在虚拟演出、智能座舱、UGC内容创作等多元场景中的应用潜力。

相关内容

热门资讯

茶咖边界持续消融:雪王与甜啦啦... 2026年,一众新茶饮品牌要持续在咖啡赛道上加码? 近日,蜜雪冰城部分门店启动咖啡机上线试点工作,...
全国人大代表郭桂义:建议加强政... 2026年全国两会期间,全国人大代表、信阳农林学院茶学院二级教授郭桂义持续关注茶产业发展,并为此建言...
进军一线城市!茶颜悦色官宣将在... 作者:周飞飞 编辑:方圆 封面图源自城事攻略 “慢半拍”的茶颜悦色(简称茶颜),终于在2026年春天...