MODEL-ZOO

OpenAudio S1：能哭会笑的TTS

从Fish-TTS升级而来的OpenAudio-S1，打败了ElevenLabs、Dia1.6B、Sesame-CSM-1B等其他模型，是情绪表达能力最强的TTS。

Jun 12, 2025 • 4 min read

你知道最近AI语音变得多么厉害了吗？简直太吓人了。尽管市面上已经有各种各样的高端语音，但大多数听起来还是……嗯，就像喝了三倍浓缩咖啡后的Siri：机械感十足、过度兴奋、完全不考虑上下文。

但是你知道吗？一个新的开源冠军刚刚登场了——而且它不仅仅优秀。它是OpenAudio-S1级别的优秀。

让我们来剖析一下为什么OpenAudio-S1可能是你还没有尝试过的最好的文本转语音（TTS）模型，但绝对应该试试。

1、Fish-TTS → OpenAudio-S1

你听说过Fish-TTS，现在它已经升级为OpenAudio-S1。想象一下你最喜欢的地下乐队终于走上了主流舞台——但这次是积极正面的那种转变。他们带来了相同的创新核心，但如今更加精致、有力且性能更佳。

OpenAudio-S1是他们的新系列中的第一款，带来了在语音真实感、情感控制和多语言掌握方面的重大升级。

该模型以两种版本发布：4B和0.5B模型。

架构：

OpenAudio S1利用了Qwen3架构，并且本质上是一个原生的多模态模型，能够支持TTS、STT、TextQA和AudioQA（目前仅发布了TTS功能）。
音频编码和解码采用了类似Descript Audio Codec的架构，从头开始训练并增强了变压器以实现卓越的文本建模能力。
这两个模型都通过RLHF进行了训练——没错，就是那个驱动ChatGPT等聊天机器人的强化学习魔法。在这里，它被用来微调语音的细微差别。

没有其他TTS模型能像OpenAudio S1一样拥有如此广泛的情感范围：

基本情绪：

(angry) (sad) (excited) (surprised) (satisfied) (delighted) (scared) (worried) (upset) (nervous) (frustrated) (depressed) (empathetic) (embarrassed) (disgusted) (moved) (proud) (relaxed) (grateful) (confident) (interested) (curious) (confused) (joyful)

高级情绪：

(disdainful) (unhappy) (anxious) (hysterical) (indifferent) (impatient) (guilty) (scornful) (panicked) (furious) (reluctant) (keen) (disapproving) (negative) (denying) (astonished) (serious) (sarcastic) (conciliative) (comforting) (sincere) (sneering) (hesitating) (yielding) (painful) (awkward) (amused)

语气标记：

特殊音频效果：

(laughing) (chuckling) (sobbing) (crying loudly) (sighing) (panting) (groaning) (crowd laughing) (background laughter) (audience laughing)

让我们快速浏览一下真正实用的功能：

它甚至领先于闭源的TTS模型！

它不仅实现了世界领先的WER（词错误率）和CER（字符错误率），还在HuggingFace的人类主观评价中排名 #1。

你可以在这里试用这个模型，并且它的八个版本也是开源的。

OpenAudio-S1不仅仅是提高了标准——它重新定义了TTS的游戏规则。从捕捉原始情感到支持多种语言和语气，它将录音室级别的语音带到了你的指尖。

让它真正特别的是它是开源的、闪电般快速且异常易于使用。无论你是构建语音助手、配音视频还是创造沉浸式的音频体验，OpenAudio-S1都是你的终极工具包。

尝试一次——你会想知道以前是如何忍受那些机械声音的。

汇智网翻译整理，转载请标明出处