Skip to content

小语言模型与端侧部署(SLM)

不是所有场景都需要千亿大模型。小语言模型(SLM)+ 端侧部署是确定性趋势——更便宜、更快、更私密,且 Agent 时代「小模型干小事」的分工逻辑让 SLM 重新成为一线话题。本文覆盖 SLM 的能力来源、端侧部署技术栈与端云协同架构。

什么是 SLM?

SLM 通常指参数量约 0.5B~10B、能在消费级硬件甚至手机上运行的语言模型。它不追求「无所不知」,而是在特定能力或成本/延迟约束下做到「够用且高效」。

系列代表特点
Phi(微软)Phi-3 / Phi-4「小而精」,教科书级合成数据路线的代表
Qwen 小尺寸Qwen3 0.6B/1.7B/4B中文强、尺寸谱系最全
Gemma(Google)Gemma 2B/4B与 Gemini 同源技术下放
MiniCPM(面壁)MiniCPM 系列端侧优化激进,手机端标杆
SmolLM(HuggingFace)135M~1.7B全开源(含数据),研究友好
Llama 小尺寸Llama 3.2 1B/3B配套端侧量化方案发布

为什么需要 SLM?

维度SLM 的优势
成本推理便宜 1~2 个数量级,大规模调用省钱
延迟响应快,适合实时交互、函数路由
隐私本地/端侧运行,数据不出设备(医疗、金融、个人助理刚需)
离线无网络可用(手机、车机、机器人、IoT)
可控易私有化、易全参微调、行为可审计

思路转变:从「一个超大模型干所有事」到「用合适大小的模型干合适的事」。NVIDIA 的立场论文《Small Language Models are the Future of Agentic AI》主张:Agent 系统里大量子任务(意图分类、参数抽取、格式转换)本质是窄任务,SLM 足够且经济——Agent 时代是 SLM 的第二春

小模型为什么也能很强?

  1. 数据质量革命:Phi 系列证明「教科书级」高质量/合成数据能让小模型越级(数据为王在小模型上更明显),见 数据工程与合成数据
  2. 蒸馏:大模型当老师——R1 蒸馏的 1.5B/7B 模型推理能力远超同尺寸自训模型,见 DeepSeek 专题
  3. 过度训练:远超 Chinchilla 最优的数据量「喂」小模型(如 3B 模型训数 T tokens),训练多花钱、推理长期省钱,见 缩放定律
  4. 窄域微调:SLM 在单一垂直任务(客服分类、SQL 生成)上经 LoRA/全参微调后,常能追平甚至超过通用大模型。

端侧部署技术栈

模型层    SLM 选型(0.5B~7B) + 量化(INT4/INT8,GGUF/AWQ)

推理层    llama.cpp(CPU/GPU 通吃,端侧基石)
          MLX(Apple 芯片) / MNN、MLC-LLM(手机端)
          ExecuTorch / ONNX Runtime(移动推理生态)

硬件层    手机 NPU(高通/联发科/苹果 ANE)、PC 核显/独显、车机/边缘盒子

端侧的真实约束

  • 内存是第一瓶颈:手机可用内存常只有几 GB,7B 模型 INT4 后约 4GB 已是上限,1~3B 才是手机舒适区;KV Cache 也要算进预算(长对话会吃掉数百 MB)。
  • 带宽决定速度:Decode 是访存密集型,端侧 LPDDR 带宽远低于显卡 GBM/HBM,token 速度天花板低。
  • 功耗与发热:持续推理会触发降频,真实速度比峰值低;NPU offload 是省电关键。
  • 首 token 延迟:长 prompt 的 prefill 在弱算力上很慢,端侧应用要控制上下文长度。

端云协同架构(面试加分项)

生产中 SLM 与 LLM 不是二选一,而是分工:

模式做法
模型分级路由小模型先判难度/意图,简单请求本地答,复杂请求转云端大模型(见 系统设计
端侧预处理敏感信息脱敏、意图压缩后再上云,兼顾隐私与能力
投机协同端侧小模型起草、云端大模型验证(投机解码的端云版本)
缓存兜底高频问题端侧缓存/小模型直答,未命中才上云

苹果的 Apple Intelligence 即典型「端侧 3B 级模型 + 私有云大模型」双层架构。

SLM vs LLM 选型

维度SLMLLM
能力广度/复杂推理
成本/延迟
隐私/离线可端侧需云端
适合垂直明确任务、边缘、高频简单调用、Agent 子任务开放复杂任务、强推理、长链规划

高频追问

Q:小模型为什么也能打? 数据质量(教科书级/合成数据)、蒸馏(继承大模型探索出的能力)、过度训练(用数据换部署性价比)、窄域微调(垂直任务不需要通识)。Phi、MiniCPM、R1 蒸馏系列都是证据。

Q:端侧部署的第一瓶颈是什么?怎么应对? 内存(而非算力):模型权重 + KV Cache 必须塞进几 GB 的可用内存。应对:选 1~3B 模型、INT4 量化、KV Cache 量化与窗口控制、NPU offload 降功耗。

Q:什么时候用 SLM 而非大模型? 任务明确/垂直、成本延迟敏感、需要隐私离线、高频简单调用、Agent 流水线中的子步骤。开放复杂推理仍要大模型。生产标准答案是「分级路由组合两者」。

Q:为什么说 Agent 时代利好 SLM? Agent 把任务拆成了大量窄子任务(路由、抽取、格式化、校验),这些任务对模型要求是「快、便宜、稳定」,不是「聪明」;用 GPT 级大模型做意图分类是巨大浪费。SLM 微调后在子任务上够用且成本低一个量级。

Q:量化和 SLM 是一回事吗? 不是。SLM 是参数量本来就小;量化是把任意模型权重用更少比特表示。二者正交且常叠加:3B SLM + INT4 量化 ≈ 2GB 内存,轻松进手机。量化原理见 推理优化

Q:怎么评估一个 SLM 适不适合你的端侧场景? 四个数字:量化后内存占用(含 KV Cache)、目标设备实测 token/s、首 token 延迟(按你的典型 prompt 长度)、任务评估集准确率(微调后)。跑真机基准,别信榜单——端侧性能与榜单分数相关性很弱。

基于 MIT 许可发布