业内首个！小米开源模型OmniVoice可覆盖600+语种_科普教育

创始人

2026-05-07 18:27:14

【CNMO科技消息】5月7日，小米AI实验室推出OmniVoice，这是业内首个覆盖数百语种的语音克隆TTS（文本到语音）模型。该模型支持600余种语言的语音合成，包括低资源小语种，能够实现高质量的多语言语音克隆。

小米

据介绍，OmniVoice在数秒内即可完成语音克隆，且覆盖语种范围广泛。传统语音克隆模型通常仅支持少数主流语言，而小米AI实验室通过技术创新，将模型扩展至数百语种，使得几乎所有语种都能通过该模型进行合成。这一突破为多语言语音交互、内容本地化等场景提供了新的技术路径。

小米AI实验室表示，OmniVoice的推出标志着多语言TTS研发进入新范式。该模型在低资源小语种上的表现尤为突出，解决了以往小语种语音数据稀缺导致合成质量低的问题。目前，该技术已在小米旗下部分产品中开始应用测试，未来有望进一步拓展至更多智能设备和服务场景。

除了核心的多语言和语音克隆能力，OmniVoice还新增了多个实用功能，让语音合成更灵活、更贴合实际需求：

1.自定义音色设计：无需参考音频，只需描述音色属性（如性别、年龄、音调、方言、口音等），就能生成符合预期的音色，还支持耳语等特殊风格。

2. 带噪参考音频适配：针对实际使用中参考音频音质不佳的问题，OmniVoice能自动过滤噪声，提取清晰的音色特征，即便在嘈杂环境下录制的音频，也能克隆出高质量语音。

3. 丰富语气表达：支持插入笑声、叹气等语气符号，让合成语音更有表现力，更贴近真人交流。

4. 发音精准纠正：针对中英文多音字、专有名词易读错的问题，用户可通过简单设置，纠正发音错误，提升语音合成的可靠性。