【CNMO科技消息】5月7日,小米AI实验室推出OmniVoice,这是业内首个覆盖数百语种的语音克隆TTS(文本到语音)模型。该模型支持600余种语言的语音合成,包括低资源小语种,能够实现高质量的多语言语音克隆。
小米
据介绍,OmniVoice在数秒内即可完成语音克隆,且覆盖语种范围广泛。传统语音克隆模型通常仅支持少数主流语言,而小米AI实验室通过技术创新,将模型扩展至数百语种,使得几乎所有语种都能通过该模型进行合成。这一突破为多语言语音交互、内容本地化等场景提供了新的技术路径。
小米AI实验室表示,OmniVoice的推出标志着多语言TTS研发进入新范式。该模型在低资源小语种上的表现尤为突出,解决了以往小语种语音数据稀缺导致合成质量低的问题。目前,该技术已在小米旗下部分产品中开始应用测试,未来有望进一步拓展至更多智能设备和服务场景。
除了核心的多语言和语音克隆能力,OmniVoice还新增了多个实用功能,让语音合成更灵活、更贴合实际需求:
1.自定义音色设计:无需参考音频,只需描述音色属性(如性别、年龄、音调、方言、口音等),就能生成符合预期的音色,还支持耳语等特殊风格。
2. 带噪参考音频适配:针对实际使用中参考音频音质不佳的问题,OmniVoice能自动过滤噪声,提取清晰的音色特征,即便在嘈杂环境下录制的音频,也能克隆出高质量语音。
3. 丰富语气表达:支持插入笑声、叹气等语气符号,让合成语音更有表现力,更贴近真人交流。
4. 发音精准纠正:针对中英文多音字、专有名词易读错的问题,用户可通过简单设置,纠正发音错误,提升语音合成的可靠性。