语音大模型（ASR / TTS / 实时语音对话）

从语音识别、语音合成到 GPT-4o 式的实时语音对话，语音是多模态落地最快的方向之一。面试核心考点：语音怎么 token 化、级联与端到端的取舍、实时对话的工程挑战。

一、语音的三类核心任务

任务	做什么	代表
ASR 语音识别	语音 → 文字	Whisper、Paraformer、SenseVoice
TTS 语音合成	文字 → 语音	VALL-E、CosyVoice、F5-TTS、ChatTTS
语音对话	语音进、语音出	GPT-4o 实时语音、Moshi、GLM-Voice

附带能力：零样本语音克隆、说话人分离、情感/风格控制、歌声合成。

二、语音怎么被模型处理？（核心考点）

语音是连续波形（16kHz = 每秒 1.6 万个采样点），必须先变成模型可处理的表示：

表示	做法	用途
Mel 频谱	波形按时频展开成「图」	传统 ASR/TTS 的输入输出
语义 token	自监督模型（HuBERT/wav2vec 2.0 类）的离散化表示	保留「说了什么」，丢弃音色细节
声学 token	神经音频编解码器（EnCodec/SoundStream）+ RVQ 残差向量量化	保留音色/韵律等全部细节，可重建波形

语义 token vs 声学 token 的分工是现代语音大模型的关键设计：语义 token 适合与 LLM 对接做理解和内容生成；声学 token 适合高保真重建。很多 TTS 采用「文本 → 语义 token → 声学 token → 波形」的两级生成。

一句话：token 化让语音能像文本一样被 Transformer 自回归建模——这是「语音大模型」得以统一理解与生成的基础。

三、代表模型拆解

Whisper（OpenAI）：Encoder-Decoder Transformer，68 万小时弱监督多语种数据训练——用规模和数据多样性换鲁棒性（口音/噪声/术语），开源 ASR 事实标准。
VALL-E（微软）：把 TTS 变成「语言模型问题」——文本 + 3 秒参考音频的声学 token 作为 prompt，自回归续写声学 token，实现零样本声音克隆，开创 codec LM 范式。
CosyVoice / F5-TTS：新一代开源 TTS：流匹配/扩散类非自回归声学建模，速度与自然度兼得，支持零样本克隆与情感控制。

四、级联 vs 端到端语音对话

级联式：  语音 ─ASR→ 文字 ─LLM→ 文字 ─TTS→ 语音
          （成熟可控，但慢、丢语气情感、误差逐级累积）
端到端：  语音 token ──► 统一多模态 LLM ──► 语音 token
          （低延迟、保留副语言信息、可边听边说）

维度	级联	端到端
延迟	高（三段串行，常 >1s）	低（数百 ms，可实时打断）
副语言信息（语气/情感/笑声）	ASR 后全部丢失	全程保留、可理解可生成
可控性/可调试	每段独立可换可查	黑盒程度高
工程成熟度	高	快速演进中

实现上端到端模型把音频 token 和文本 token 混在同一个自回归序列里训练（语音版的「原生多模态」，见多模态）；常用文本流辅助（边生成文字边生成语音 token）保住智商不掉线——纯语音训练会损失 LLM 的知识与推理能力，这是该方向的核心难题。

五、实时语音的工程挑战

延迟预算：人类对话间隔 ~200-500ms，要流式 ASR/生成、首包优先、边想边说；
打断（barge-in）：用户随时插话，模型要立刻停并切回听——需要 VAD（语音活动检测）+ 生成中断机制；
全双工：同时听和说（附和、抢话），Moshi 用多流并行建模实现；
流式 TTS：文本未完就开始出声，分句/分块合成拼接。

六、安全与伦理

零样本克隆 3 秒即可仿冒音色 → 诈骗/伪造风险。对策：声纹水印、克隆授权验证、生成音频检测。语音深度伪造已是安全合规的现实议题。

高频追问

Q：语音怎么变成模型能处理的输入？ 三种：Mel 频谱（连续特征图）；语义 token（自监督表示离散化，保内容）；声学 token（神经编解码器 RVQ 量化，保全部细节可重建）。现代语音大模型靠后两者把语音变成「另一种语言」喂给 Transformer。

Q：语义 token 和声学 token 的区别？ 语义 token 来自自监督理解模型，编码「说了什么」，码率低、与文本对齐好；声学 token 来自压缩编解码器，编码「怎么说的」（音色/韵律/环境音），可还原波形。TTS 常两级：先生成语义/粗 token 再细化声学 token。

Q：级联式和端到端语音对话怎么选？ 要快速落地、可控可审计（客服质检）→ 级联；要极致体验（实时陪伴、同传）→ 端到端。中间态「半级联」（语音理解端到端 + TTS 独立）也常见。回答时给出延迟和副语言信息两个核心差异点。

Q：Whisper 为什么鲁棒？ 68 万小时多语种弱监督数据（含转录噪声）+ 多任务训练（识别/翻译/语种检测/时间戳）。靠数据规模与多样性而非精标数据取胜——是「数据为王」在语音的版本。

Q：VALL-E 把 TTS 范式改成了什么？ 从「回归 Mel 频谱 + 声码器」改成「声学 token 的条件语言模型」：参考音频的 token 当 prompt，自回归续写。好处是零样本克隆与 LLM 式 scaling；代价是自回归的稳定性问题（复读/漏字），后续方案用非自回归（流匹配）改善。

Q：端到端语音模型为什么容易「变笨」？怎么办？ 语音 token 序列长、信息密度低，纯语音训练会稀释文本预训练学到的知识与推理。对策：文本-语音交错训练、内部维持文本流（先想文字再发音）、冻结文本主干只训语音适配层。

语音大模型（ASR / TTS / 实时语音对话） ​

一、语音的三类核心任务 ​

二、语音怎么被模型处理？（核心考点） ​

三、代表模型拆解 ​

四、级联 vs 端到端语音对话 ​

五、实时语音的工程挑战 ​

六、安全与伦理 ​

高频追问 ​