语音大模型(ASR / TTS / 实时语音对话)
从语音识别、语音合成到 GPT-4o 式的实时语音对话,语音是多模态落地最快的方向之一。面试核心考点:语音怎么 token 化、级联与端到端的取舍、实时对话的工程挑战。
一、语音的三类核心任务
| 任务 | 做什么 | 代表 |
|---|---|---|
| ASR 语音识别 | 语音 → 文字 | Whisper、Paraformer、SenseVoice |
| TTS 语音合成 | 文字 → 语音 | VALL-E、CosyVoice、F5-TTS、ChatTTS |
| 语音对话 | 语音进、语音出 | GPT-4o 实时语音、Moshi、GLM-Voice |
附带能力:零样本语音克隆、说话人分离、情感/风格控制、歌声合成。
二、语音怎么被模型处理?(核心考点)
语音是连续波形(16kHz = 每秒 1.6 万个采样点),必须先变成模型可处理的表示:
| 表示 | 做法 | 用途 |
|---|---|---|
| Mel 频谱 | 波形按时频展开成「图」 | 传统 ASR/TTS 的输入输出 |
| 语义 token | 自监督模型(HuBERT/wav2vec 2.0 类)的离散化表示 | 保留「说了什么」,丢弃音色细节 |
| 声学 token | 神经音频编解码器(EnCodec/SoundStream)+ RVQ 残差向量量化 | 保留音色/韵律等全部细节,可重建波形 |
语义 token vs 声学 token 的分工是现代语音大模型的关键设计:语义 token 适合与 LLM 对接做理解和内容生成;声学 token 适合高保真重建。很多 TTS 采用「文本 → 语义 token → 声学 token → 波形」的两级生成。
一句话:token 化让语音能像文本一样被 Transformer 自回归建模——这是「语音大模型」得以统一理解与生成的基础。
三、代表模型拆解
- Whisper(OpenAI):Encoder-Decoder Transformer,68 万小时弱监督多语种数据训练——用规模和数据多样性换鲁棒性(口音/噪声/术语),开源 ASR 事实标准。
- VALL-E(微软):把 TTS 变成「语言模型问题」——文本 + 3 秒参考音频的声学 token 作为 prompt,自回归续写声学 token,实现零样本声音克隆,开创 codec LM 范式。
- CosyVoice / F5-TTS:新一代开源 TTS:流匹配/扩散类非自回归声学建模,速度与自然度兼得,支持零样本克隆与情感控制。
四、级联 vs 端到端语音对话
级联式: 语音 ─ASR→ 文字 ─LLM→ 文字 ─TTS→ 语音
(成熟可控,但慢、丢语气情感、误差逐级累积)
端到端: 语音 token ──► 统一多模态 LLM ──► 语音 token
(低延迟、保留副语言信息、可边听边说)| 维度 | 级联 | 端到端 |
|---|---|---|
| 延迟 | 高(三段串行,常 >1s) | 低(数百 ms,可实时打断) |
| 副语言信息(语气/情感/笑声) | ASR 后全部丢失 | 全程保留、可理解可生成 |
| 可控性/可调试 | 每段独立可换可查 | 黑盒程度高 |
| 工程成熟度 | 高 | 快速演进中 |
实现上端到端模型把音频 token 和文本 token 混在同一个自回归序列里训练(语音版的「原生多模态」,见 多模态);常用文本流辅助(边生成文字边生成语音 token)保住智商不掉线——纯语音训练会损失 LLM 的知识与推理能力,这是该方向的核心难题。
五、实时语音的工程挑战
- 延迟预算:人类对话间隔 ~200-500ms,要流式 ASR/生成、首包优先、边想边说;
- 打断(barge-in):用户随时插话,模型要立刻停并切回听——需要 VAD(语音活动检测)+ 生成中断机制;
- 全双工:同时听和说(附和、抢话),Moshi 用多流并行建模实现;
- 流式 TTS:文本未完就开始出声,分句/分块合成拼接。
六、安全与伦理
零样本克隆 3 秒即可仿冒音色 → 诈骗/伪造风险。对策:声纹水印、克隆授权验证、生成音频检测。语音深度伪造已是 安全合规 的现实议题。
高频追问
Q:语音怎么变成模型能处理的输入? 三种:Mel 频谱(连续特征图);语义 token(自监督表示离散化,保内容);声学 token(神经编解码器 RVQ 量化,保全部细节可重建)。现代语音大模型靠后两者把语音变成「另一种语言」喂给 Transformer。
Q:语义 token 和声学 token 的区别? 语义 token 来自自监督理解模型,编码「说了什么」,码率低、与文本对齐好;声学 token 来自压缩编解码器,编码「怎么说的」(音色/韵律/环境音),可还原波形。TTS 常两级:先生成语义/粗 token 再细化声学 token。
Q:级联式和端到端语音对话怎么选? 要快速落地、可控可审计(客服质检)→ 级联;要极致体验(实时陪伴、同传)→ 端到端。中间态「半级联」(语音理解端到端 + TTS 独立)也常见。回答时给出延迟和副语言信息两个核心差异点。
Q:Whisper 为什么鲁棒? 68 万小时多语种弱监督数据(含转录噪声)+ 多任务训练(识别/翻译/语种检测/时间戳)。靠数据规模与多样性而非精标数据取胜——是「数据为王」在语音的版本。
Q:VALL-E 把 TTS 范式改成了什么? 从「回归 Mel 频谱 + 声码器」改成「声学 token 的条件语言模型」:参考音频的 token 当 prompt,自回归续写。好处是零样本克隆与 LLM 式 scaling;代价是自回归的稳定性问题(复读/漏字),后续方案用非自回归(流匹配)改善。
Q:端到端语音模型为什么容易「变笨」?怎么办? 语音 token 序列长、信息密度低,纯语音训练会稀释文本预训练学到的知识与推理。对策:文本-语音交错训练、内部维持文本流(先想文字再发音)、冻结文本主干只训语音适配层。