GPU 与硬件基础

「7B 模型推理要多大显存？」「为什么大模型训练/推理都得用 GPU？」「A100 和 H100 怎么选？」——硬件是大模型工程岗的硬通货考点。本文把显存、算力、通信讲清楚。

为什么是 GPU？

大模型 99% 的计算是大规模矩阵乘法，这类运算高度并行。GPU 有成千上万个核心，擅长同时做海量并行计算；CPU 核少但单核强，擅长串行复杂逻辑。所以训练和推理都靠 GPU（或 TPU/NPU 等专用加速器）。

GPU 内部还有专门加速矩阵乘的 Tensor Core，对 FP16/BF16/FP8 等低精度矩阵运算有数量级加速。

显存：最稀缺的资源

显存（HBM）往往比算力更早成为瓶颈。两个核心场景：

推理显存

主要 = 模型权重 + KV Cache + 激活。权重的粗算：

$$\text{权重显存} \approx \text{参数量} \times \text{每参数字节数}$$

精度	每参数字节	7B 模型权重	70B 模型权重
FP32	4	~28 GB	~280 GB
FP16/BF16	2	~14 GB	~140 GB
INT8	1	~7 GB	~70 GB
INT4	0.5	~3.5 GB	~35 GB

经验口诀：FP16 下，显存(GB) ≈ 参数量(B) × 2，再加 KV Cache 和激活的余量（通常预留 20%+）。这也是「7B 模型大约要 16GB 显存做 FP16 推理」的由来。量化能成倍降低（INT4 约为 FP16 的 1/4）。

训练显存

远大于推理，= 参数 + 梯度 + 优化器状态 + 激活。用 Adam + 混合精度时，「参数+梯度+优化器状态」约为参数量的 16 倍（详见分布式训练）。所以 7B 模型全参训练动辄上百 GB，需要多卡 + ZeRO/并行。

算力与通信

算力（FLOPS）：每秒浮点运算数，看的是低精度（如 BF16/FP8）的 Tensor Core 算力。训练计算量经验公式 C ≈ 6 × 参数量 × token 数。
显存带宽：decode 阶段是 memory-bound（瓶颈在把权重和 KV 从显存读出来），带宽往往比算力更关键，详见推理优化。
卡间通信：多卡训练/推理要频繁同步，NVLink（卡间高速互联）和 InfiniBand/RoCE（机间高速网络）的带宽直接影响并行效率。张量并行通信频繁，必须放在 NVLink 互联的机内。

大模型工程三要素：显存（装得下）、算力（算得快）、通信（同步得快），三者协同决定系统上限。

常见 GPU 选型

GPU	显存	定位
B100 / B200	192GB HBM3e	Blackwell 旗舰，支持 FP4，~8TB/s 带宽，2025 量产
GB200	384GB/超级芯片	Grace CPU + 双 Blackwell GPU，万亿次参数推理
H100 / H200	80GB / 141GB	旗舰训练/推理，支持 FP8、NVLink，最强但最贵
A100	40 / 80GB	上一代主力，性价比仍高，训练推理通用
RTX 4090 / 5090	24GB / 32GB	消费级，适合微调小模型、本地推理（无 NVLink、限制商用）
L20 / L40S	48GB	推理性价比卡
国产（昇腾等）	—	国产化替代方案

Blackwell 关键升级：B100/B200 采用双 die 设计（~2080 亿晶体管），引入第二代 Transformer Engine 支持原生 FP4 精度，NVIDIA 宣称推理性能较 H100 提升约 30 倍（实际视场景而定）。GB200 NVL72 机架整合 72 块 Blackwell GPU + 36 颗 Grace CPU，液体散热，专为万亿参数模型推理设计。

选型看：显存够不够装模型 + KV Cache、算力/带宽、是否需多卡 NVLink、预算、供货与合规。

高频追问

Q：7B 模型推理大概需要多少显存？怎么估算？ FP16 下权重约 7×2=14GB，再加 KV Cache（随并发和上下文长度增长）和激活，通常预留到 16~20GB。量化到 INT4 可降到约 4~6GB。口诀：FP16 显存(GB)≈参数量(B)×2，再留余量。

Q：为什么大模型必须用 GPU 而不是 CPU？ 大模型计算以大规模并行矩阵乘为主，GPU 有上万核心 + 专用 Tensor Core，能同时算海量数据；CPU 核少、偏串行，跑大模型会慢几个数量级。端侧小模型量化后可用 CPU（如 llama.cpp）。

Q：训练显存为什么比推理大那么多？ 推理只需权重 + KV Cache + 激活；训练还要存梯度和优化器状态（Adam 的一二阶矩），用混合精度时「参数+梯度+优化器状态」约为参数量的 16 倍，再加要保留的激活，所以训练显存远高于推理。

Q：decode 阶段是算力瓶颈还是显存带宽瓶颈？ 显存带宽（memory-bound）。每生成一个 token 都要把整个模型权重和 KV Cache 从显存读一遍，实际计算量却小，所以瓶颈在带宽。这也是提高 batch、用量化减少访存能提速的原因。

Q：A100 和 H100 怎么选？ H100 算力和带宽更强、支持 FP8、训练推理都更快，但贵、可能受限供货；A100 性价比高、生态成熟，多数场景够用。预算充足、追求极致吞吐或要 FP8 选 H100，否则 A100 仍是稳妥选择。

Q：Blackwell（B100/B200/GB200）相比 Hopper（H100）有什么升级？ 三大改进：① 显存从 80GB 升到 192GB HBM3e，带宽约 8TB/s，能装下更大的模型和 KV Cache；② 原生支持 FP4 精度，进一步降低显存占用和推理成本；② 双 die 架构 + 第二代 Transformer Engine，NVIDIA 称推理吞吐较 H100 提升约 30 倍（实际取决于 batch 大小和模型类型）。GB200 超级芯片把 Grace CPU 和双 Blackwell GPU 封装在一起，面向万亿参数模型。

Q：NVLink 和 InfiniBand 有什么用？ NVLink 是机内卡间高速互联，InfiniBand/RoCE 是机间高速网络。多卡并行（尤其张量并行）需频繁同步，通信带宽直接决定并行效率，所以通信密集的并行要放在 NVLink 机内，跨机用高速网络。

GPU 与硬件基础 ​

为什么是 GPU？ ​

显存：最稀缺的资源 ​

推理显存 ​

训练显存 ​

算力与通信 ​

常见 GPU 选型 ​

高频追问 ​