Skip to content

AI 系统设计专题

大厂面试越来越爱考「设计一个 XX 大模型系统」,考的是把模型能力变成高可用、低成本、可扩展生产系统的综合能力。本文给出通用方法论与几个高频场景的设计要点。基础应用工程见 LLM 应用开发实战,项目案例见 AI 项目实战案例

通用方法论:怎么答系统设计题

和传统系统设计一样,先澄清需求 → 估算规模 → 画架构 → 讲权衡 → 谈演进,但要叠加大模型特有的考量:

  1. 需求澄清:QPS、并发、延迟要求(实时对话 vs 离线批处理)、准确率要求、是否要私有化、预算。
  2. 大模型特有维度:选什么模型(闭源 API vs 开源自托管)、上下文长度、是否需 RAG/微调、Token 成本、幻觉容忍度、数据合规。
  3. 架构分层:接入层 → 编排层(Prompt/RAG/Agent)→ 模型层(API 或自托管推理)→ 数据层(向量库/缓存/DB)→ 可观测与安全。
  4. 非功能性:高可用、限流降级、成本控制、监控、安全(见 大模型安全)。

大模型系统的通用架构

        用户

   ┌─────▼──────┐  鉴权/限流/路由
   │  接入网关   │
   └─────┬──────┘
   ┌─────▼───────────────────┐  编排层
   │ Prompt / RAG / Agent     │── 缓存(语义缓存/前缀缓存)
   │ 模型路由(大小模型分级)   │
   └─────┬───────────────────┘
   ┌─────▼─────┐   ┌──────────┐   ┌──────────┐
   │ 模型服务   │   │ 向量库    │   │ 业务 DB   │
   │ (vLLM/API)│   │ (Milvus) │   │          │
   └───────────┘   └──────────┘

   监控 / 日志 / 评估 / 护栏(贯穿全链路)

高频场景一:高并发大模型推理服务

目标:支撑大量并发请求,低延迟、高吞吐、可控成本。

要点:

  • 推理引擎:用 vLLM(PagedAttention + 连续批处理)或 TensorRT-LLM 提吞吐,详见 推理优化
  • 水平扩展:多副本 + 负载均衡;按 GPU 利用率自动扩缩容。
  • 流量治理:限流、排队、超时、熔断降级(高峰降级到小模型或缓存答案)。
  • 成本优化:模型分级路由(简单请求走小模型)、语义/前缀缓存、限制输出长度、离线走 Batch。
  • 关键指标:TTFT、TPOT、吞吐、P99 延迟、GPU 利用率、每千 token 成本。

高频场景二:企业知识库问答(RAG)

目标:基于私有文档的可信问答,带溯源。

要点(详见 AI 项目实战RAG 进阶):文档接入与解析 → 切分策略 → Embedding/向量库选型 → 混合检索 + Rerank → Prompt 模板与引用 → RAGAS 评估 → 增量更新 → 多租户与权限隔离 → 缓存与成本。

高频场景三:大模型私有化部署

目标:数据不出内网的企业级部署。

要点:

  • 模型选型:开源模型(Qwen/DeepSeek/LLaMA)按需求选尺寸,配合量化。
  • 硬件:GPU 选型与显存估算,详见 GPU 与硬件
  • 推理框架:vLLM / TGI / SGLang,统一 OpenAI 兼容接口便于迁移。
  • 高可用:多机多卡、负载均衡、健康检查、灰度。
  • 安全合规:数据隔离、审计日志、内容护栏、权限。

高频场景四:实时/流式对话系统

要点:流式输出(SSE)降低体感延迟、多轮对话的上下文管理(见 记忆系统)、会话隔离、并发连接管理、内容审核在流中处理。

系统设计答题加分项

  • 主动谈权衡(API vs 自托管、RAG vs 微调、长上下文 vs RAG、效果 vs 成本 vs 延迟)。
  • 量化意识:估算 QPS、显存、Token 成本,而不是只画框。
  • 强调评估与迭代闭环:上线不是终点,要建评测集、收集 bad case、持续优化。
  • 考虑失败与降级:上游 API 挂了、GPU 不够、被注入攻击时怎么办。

高频追问

Q:设计大模型系统和传统系统设计有什么不同? 多了大模型特有维度:模型选型(API vs 自托管)、Token 成本、上下文长度、幻觉与评估、RAG/微调的取舍、GPU 资源与推理优化。但「澄清需求→估算→分层架构→讲权衡→谈演进」的方法论一致。

Q:API 调用还是自托管开源模型,怎么选? API 省心、按量付费、上手快,但有数据合规顾虑、长期高频成本高、受限于供应商;自托管可控、数据不出门、规模化后单位成本低,但要承担 GPU、运维、推理优化。看数据敏感度、规模、团队能力综合定。

Q:怎么设计一个高并发的大模型服务? vLLM 等高吞吐引擎(PagedAttention+连续批处理)+ 多副本水平扩展 + 限流排队熔断降级 + 模型分级路由 + 语义/前缀缓存 + 全链路监控;关注 TTFT/TPOT/吞吐/P99/成本等指标。

Q:大模型系统怎么控成本? 模型分级路由(简单任务用小模型)、缓存(语义缓存复用相似问答、前缀缓存复用 system prompt)、Prompt 与上下文精简、限制输出长度、离线任务走 Batch API、自托管时用量化和高吞吐引擎提升单卡产出。

Q:系统设计题怎么答出彩? 别只画框图,要:澄清需求与规模、给出量化估算(QPS/显存/Token 成本)、主动讲清关键权衡、设计失败降级路径、强调评估与持续迭代闭环。

基于 MIT 许可发布