Skip to content

语音大模型(ASR / TTS / 实时语音对话)

从语音识别、语音合成到 GPT-4o 式的实时语音对话,语音是多模态落地最快的方向之一。面试核心考点:语音怎么 token 化级联与端到端的取舍实时对话的工程挑战

一、语音的三类核心任务

任务做什么代表
ASR 语音识别语音 → 文字Whisper、Paraformer、SenseVoice
TTS 语音合成文字 → 语音VALL-E、CosyVoice、F5-TTS、ChatTTS
语音对话语音进、语音出GPT-4o 实时语音、Moshi、GLM-Voice

附带能力:零样本语音克隆、说话人分离、情感/风格控制、歌声合成。

二、语音怎么被模型处理?(核心考点)

语音是连续波形(16kHz = 每秒 1.6 万个采样点),必须先变成模型可处理的表示:

表示做法用途
Mel 频谱波形按时频展开成「图」传统 ASR/TTS 的输入输出
语义 token自监督模型(HuBERT/wav2vec 2.0 类)的离散化表示保留「说了什么」,丢弃音色细节
声学 token神经音频编解码器(EnCodec/SoundStream)+ RVQ 残差向量量化保留音色/韵律等全部细节,可重建波形

语义 token vs 声学 token 的分工是现代语音大模型的关键设计:语义 token 适合与 LLM 对接做理解和内容生成;声学 token 适合高保真重建。很多 TTS 采用「文本 → 语义 token → 声学 token → 波形」的两级生成。

一句话:token 化让语音能像文本一样被 Transformer 自回归建模——这是「语音大模型」得以统一理解与生成的基础。

三、代表模型拆解

  • Whisper(OpenAI):Encoder-Decoder Transformer,68 万小时弱监督多语种数据训练——用规模和数据多样性换鲁棒性(口音/噪声/术语),开源 ASR 事实标准。
  • VALL-E(微软):把 TTS 变成「语言模型问题」——文本 + 3 秒参考音频的声学 token 作为 prompt,自回归续写声学 token,实现零样本声音克隆,开创 codec LM 范式。
  • CosyVoice / F5-TTS:新一代开源 TTS:流匹配/扩散类非自回归声学建模,速度与自然度兼得,支持零样本克隆与情感控制。

四、级联 vs 端到端语音对话

级联式:  语音 ─ASR→ 文字 ─LLM→ 文字 ─TTS→ 语音
          (成熟可控,但慢、丢语气情感、误差逐级累积)
端到端:  语音 token ──► 统一多模态 LLM ──► 语音 token
          (低延迟、保留副语言信息、可边听边说)
维度级联端到端
延迟高(三段串行,常 >1s)低(数百 ms,可实时打断)
副语言信息(语气/情感/笑声)ASR 后全部丢失全程保留、可理解可生成
可控性/可调试每段独立可换可查黑盒程度高
工程成熟度快速演进中

实现上端到端模型把音频 token 和文本 token 混在同一个自回归序列里训练(语音版的「原生多模态」,见 多模态);常用文本流辅助(边生成文字边生成语音 token)保住智商不掉线——纯语音训练会损失 LLM 的知识与推理能力,这是该方向的核心难题。

五、实时语音的工程挑战

  • 延迟预算:人类对话间隔 ~200-500ms,要流式 ASR/生成、首包优先、边想边说;
  • 打断(barge-in):用户随时插话,模型要立刻停并切回听——需要 VAD(语音活动检测)+ 生成中断机制;
  • 全双工:同时听和说(附和、抢话),Moshi 用多流并行建模实现;
  • 流式 TTS:文本未完就开始出声,分句/分块合成拼接。

六、安全与伦理

零样本克隆 3 秒即可仿冒音色 → 诈骗/伪造风险。对策:声纹水印、克隆授权验证、生成音频检测。语音深度伪造已是 安全合规 的现实议题。

高频追问

Q:语音怎么变成模型能处理的输入? 三种:Mel 频谱(连续特征图);语义 token(自监督表示离散化,保内容);声学 token(神经编解码器 RVQ 量化,保全部细节可重建)。现代语音大模型靠后两者把语音变成「另一种语言」喂给 Transformer。

Q:语义 token 和声学 token 的区别? 语义 token 来自自监督理解模型,编码「说了什么」,码率低、与文本对齐好;声学 token 来自压缩编解码器,编码「怎么说的」(音色/韵律/环境音),可还原波形。TTS 常两级:先生成语义/粗 token 再细化声学 token。

Q:级联式和端到端语音对话怎么选? 要快速落地、可控可审计(客服质检)→ 级联;要极致体验(实时陪伴、同传)→ 端到端。中间态「半级联」(语音理解端到端 + TTS 独立)也常见。回答时给出延迟和副语言信息两个核心差异点。

Q:Whisper 为什么鲁棒? 68 万小时多语种弱监督数据(含转录噪声)+ 多任务训练(识别/翻译/语种检测/时间戳)。靠数据规模与多样性而非精标数据取胜——是「数据为王」在语音的版本。

Q:VALL-E 把 TTS 范式改成了什么? 从「回归 Mel 频谱 + 声码器」改成「声学 token 的条件语言模型」:参考音频的 token 当 prompt,自回归续写。好处是零样本克隆与 LLM 式 scaling;代价是自回归的稳定性问题(复读/漏字),后续方案用非自回归(流匹配)改善。

Q:端到端语音模型为什么容易「变笨」?怎么办? 语音 token 序列长、信息密度低,纯语音训练会稀释文本预训练学到的知识与推理。对策:文本-语音交错训练、内部维持文本流(先想文字再发音)、冻结文本主干只训语音适配层。

基于 MIT 许可发布