MiniMax Speech-02：国产语音合成新突破，登顶国际权威榜单-晓得智能

在人工智能领域，国产大模型正以惊人的速度蓬勃发展。今年初，DeepSeek-R1 以超低的运行成本实现了超越 OpenAI 的卓越性能，打破了国外大模型长期以来的垄断局面。如今，MiniMax 带来了更令人振奋的消息：其最新研发的文本转语音（TTS）模型 “Speech-02” 在国际权威的语音评测榜单 Artificial Analysis 上一举夺冠，力压 OpenAI 和行业巨头 ElevenLabs。

Speech-02 凭借在字错率（WER）和说话人相似度（SIM）等关键指标上的卓越表现，刷新了最佳结果（SOTA），引发了国际网友的广泛关注和赞誉，MiniMax 被誉为音频领域的创新先锋。更值得一提的是，Speech-02 的成本仅为 ElevenLabs 竞品的四分之一，展现出超高的性价比。

Speech-02 的卓越成就得益于两项核心技术创新。首先，它实现了真正的零样本（zero-shot）语音克隆技术，仅需一段参考语音，无需额外文本，即可快速生成与目标语音高度相似的音频，极大地节省了时间和资源。其次，MiniMax 首次采用了 Flow-VAE 架构，提升了语音生成过程中的信息表征能力，显著改善了合成音频的质量和相似度。通过引入可学习的 speaker 编码器，Speech-02 能精准捕捉说话者独特的音色、语调和节奏等发音特点，避免了传统语音合成的生硬感。

此外，MiniMax 独创的 T2V 框架将开放式自然语言描述与结构化标签信息相结合，进一步增强了语音合成的灵活性和可控性。用户不仅可以提供参考音频，还能通过简单描述生成所需音色的语音，极大地拓展了系统的应用场景。

Speech-02 的成功不仅彰显了国产大模型在语音合成领域的强大实力，也向全球展示了中国在人工智能技术领域的快速崛起和创新能力。这标志着国产大模型在语音合成领域已达到国际领先水平，为未来更多创新应用奠定了坚实基础。

技术文档：https://minimax-ai.github.io/tts_tech_report/