Skip to content

GPU 与硬件基础

「7B 模型推理要多大显存?」「为什么大模型训练/推理都得用 GPU?」「A100 和 H100 怎么选?」——硬件是大模型工程岗的硬通货考点。本文把显存、算力、通信讲清楚。

为什么是 GPU?

大模型 99% 的计算是大规模矩阵乘法,这类运算高度并行。GPU 有成千上万个核心,擅长同时做海量并行计算;CPU 核少但单核强,擅长串行复杂逻辑。所以训练和推理都靠 GPU(或 TPU/NPU 等专用加速器)。

GPU 内部还有专门加速矩阵乘的 Tensor Core,对 FP16/BF16/FP8 等低精度矩阵运算有数量级加速。

显存:最稀缺的资源

显存(HBM)往往比算力更早成为瓶颈。两个核心场景:

推理显存

主要 = 模型权重 + KV Cache + 激活。权重的粗算:

$$\text{权重显存} \approx \text{参数量} \times \text{每参数字节数}$$

精度每参数字节7B 模型权重70B 模型权重
FP324~28 GB~280 GB
FP16/BF162~14 GB~140 GB
INT81~7 GB~70 GB
INT40.5~3.5 GB~35 GB

经验口诀:FP16 下,显存(GB) ≈ 参数量(B) × 2,再加 KV Cache 和激活的余量(通常预留 20%+)。这也是「7B 模型大约要 16GB 显存做 FP16 推理」的由来。量化能成倍降低(INT4 约为 FP16 的 1/4)。

训练显存

远大于推理,= 参数 + 梯度 + 优化器状态 + 激活。用 Adam + 混合精度时,「参数+梯度+优化器状态」约为参数量的 16 倍(详见 分布式训练)。所以 7B 模型全参训练动辄上百 GB,需要多卡 + ZeRO/并行。

算力与通信

  • 算力(FLOPS):每秒浮点运算数,看的是低精度(如 BF16/FP8)的 Tensor Core 算力。训练计算量经验公式 C ≈ 6 × 参数量 × token 数
  • 显存带宽:decode 阶段是 memory-bound(瓶颈在把权重和 KV 从显存读出来),带宽往往比算力更关键,详见 推理优化
  • 卡间通信:多卡训练/推理要频繁同步,NVLink(卡间高速互联)和 InfiniBand/RoCE(机间高速网络)的带宽直接影响并行效率。张量并行通信频繁,必须放在 NVLink 互联的机内。

大模型工程三要素:显存(装得下)、算力(算得快)、通信(同步得快),三者协同决定系统上限。

常见 GPU 选型

GPU显存定位
H100 / H20080GB / 141GB旗舰训练/推理,支持 FP8、NVLink,最强但最贵
A10040 / 80GB上一代主力,性价比仍高,训练推理通用
RTX 409024GB消费级,适合微调小模型、本地推理(无 NVLink、限制商用)
L20 / L40S48GB推理性价比卡
国产(昇腾等)国产化替代方案

选型看:显存够不够装模型 + KV Cache、算力/带宽、是否需多卡 NVLink、预算、供货与合规。

高频追问

Q:7B 模型推理大概需要多少显存?怎么估算? FP16 下权重约 7×2=14GB,再加 KV Cache(随并发和上下文长度增长)和激活,通常预留到 16~20GB。量化到 INT4 可降到约 4~6GB。口诀:FP16 显存(GB)≈参数量(B)×2,再留余量。

Q:为什么大模型必须用 GPU 而不是 CPU? 大模型计算以大规模并行矩阵乘为主,GPU 有上万核心 + 专用 Tensor Core,能同时算海量数据;CPU 核少、偏串行,跑大模型会慢几个数量级。端侧小模型量化后可用 CPU(如 llama.cpp)。

Q:训练显存为什么比推理大那么多? 推理只需权重 + KV Cache + 激活;训练还要存梯度和优化器状态(Adam 的一二阶矩),用混合精度时「参数+梯度+优化器状态」约为参数量的 16 倍,再加要保留的激活,所以训练显存远高于推理。

Q:decode 阶段是算力瓶颈还是显存带宽瓶颈? 显存带宽(memory-bound)。每生成一个 token 都要把整个模型权重和 KV Cache 从显存读一遍,实际计算量却小,所以瓶颈在带宽。这也是提高 batch、用量化减少访存能提速的原因。

Q:A100 和 H100 怎么选? H100 算力和带宽更强、支持 FP8、训练推理都更快,但贵、可能受限供货;A100 性价比高、生态成熟,多数场景够用。预算充足、追求极致吞吐或要 FP8 选 H100,否则 A100 仍是稳妥选择。

Q:NVLink 和 InfiniBand 有什么用? NVLink 是机内卡间高速互联,InfiniBand/RoCE 是机间高速网络。多卡并行(尤其张量并行)需频繁同步,通信带宽直接决定并行效率,所以通信密集的并行要放在 NVLink 机内,跨机用高速网络。

基于 MIT 许可发布