AI 系统设计专题

大厂面试越来越爱考「设计一个 XX 大模型系统」，考的是把模型能力变成高可用、低成本、可扩展生产系统的综合能力。本文给出通用方法论与几个高频场景的设计要点。基础应用工程见 LLM 应用开发实战，项目案例见 AI 项目实战案例。

通用方法论：怎么答系统设计题

和传统系统设计一样，先澄清需求 → 估算规模 → 画架构 → 讲权衡 → 谈演进，但要叠加大模型特有的考量：

需求澄清：QPS、并发、延迟要求（实时对话 vs 离线批处理）、准确率要求、是否要私有化、预算。
大模型特有维度：选什么模型（闭源 API vs 开源自托管）、上下文长度、是否需 RAG/微调、Token 成本、幻觉容忍度、数据合规。
架构分层：接入层 → 编排层（Prompt/RAG/Agent）→ 模型层（API 或自托管推理）→ 数据层（向量库/缓存/DB）→ 可观测与安全。
非功能性：高可用、限流降级、成本控制、监控、安全（见大模型安全）。

大模型系统的通用架构

        用户
         │
   ┌─────▼──────┐  鉴权/限流/路由
   │  接入网关   │
   └─────┬──────┘
   ┌─────▼───────────────────┐  编排层
   │ Prompt / RAG / Agent     │── 缓存（语义缓存/前缀缓存）
   │ 模型路由（大小模型分级）   │
   └─────┬───────────────────┘
   ┌─────▼─────┐   ┌──────────┐   ┌──────────┐
   │ 模型服务   │   │ 向量库    │   │ 业务 DB   │
   │ (vLLM/API)│   │ (Milvus) │   │          │
   └───────────┘   └──────────┘
         │
   监控 / 日志 / 评估 / 护栏（贯穿全链路）

高频场景一：高并发大模型推理服务

目标：支撑大量并发请求，低延迟、高吞吐、可控成本。

要点：

推理引擎：用 vLLM（PagedAttention + 连续批处理）或 TensorRT-LLM 提吞吐，详见推理优化。
水平扩展：多副本 + 负载均衡；按 GPU 利用率自动扩缩容。
流量治理：限流、排队、超时、熔断降级（高峰降级到小模型或缓存答案）。
成本优化：模型分级路由（简单请求走小模型）、语义/前缀缓存、限制输出长度、离线走 Batch。
关键指标：TTFT、TPOT、吞吐、P99 延迟、GPU 利用率、每千 token 成本。

高频场景二：企业知识库问答（RAG）

目标：基于私有文档的可信问答，带溯源。

要点（详见 AI 项目实战与 RAG 进阶）：文档接入与解析 → 切分策略 → Embedding/向量库选型 → 混合检索 + Rerank → Prompt 模板与引用 → RAGAS 评估 → 增量更新 → 多租户与权限隔离 → 缓存与成本。

高频场景三：大模型私有化部署

目标：数据不出内网的企业级部署。

要点：

模型选型：开源模型（Qwen/DeepSeek/LLaMA）按需求选尺寸，配合量化。
硬件：GPU 选型与显存估算，详见 GPU 与硬件。
推理框架：vLLM / TGI / SGLang，统一 OpenAI 兼容接口便于迁移。
高可用：多机多卡、负载均衡、健康检查、灰度。
安全合规：数据隔离、审计日志、内容护栏、权限。

高频场景四：实时/流式对话系统

要点：流式输出（SSE）降低体感延迟、多轮对话的上下文管理（见记忆系统）、会话隔离、并发连接管理、内容审核在流中处理。

系统设计答题加分项

主动谈权衡（API vs 自托管、RAG vs 微调、长上下文 vs RAG、效果 vs 成本 vs 延迟）。
有量化意识：估算 QPS、显存、Token 成本，而不是只画框。
强调评估与迭代闭环：上线不是终点，要建评测集、收集 bad case、持续优化。
考虑失败与降级：上游 API 挂了、GPU 不够、被注入攻击时怎么办。

高频追问

Q：设计大模型系统和传统系统设计有什么不同？ 多了大模型特有维度：模型选型（API vs 自托管）、Token 成本、上下文长度、幻觉与评估、RAG/微调的取舍、GPU 资源与推理优化。但「澄清需求→估算→分层架构→讲权衡→谈演进」的方法论一致。

Q：API 调用还是自托管开源模型，怎么选？ API 省心、按量付费、上手快，但有数据合规顾虑、长期高频成本高、受限于供应商；自托管可控、数据不出门、规模化后单位成本低，但要承担 GPU、运维、推理优化。看数据敏感度、规模、团队能力综合定。

Q：怎么设计一个高并发的大模型服务？ vLLM 等高吞吐引擎（PagedAttention+连续批处理）+ 多副本水平扩展 + 限流排队熔断降级 + 模型分级路由 + 语义/前缀缓存 + 全链路监控；关注 TTFT/TPOT/吞吐/P99/成本等指标。

Q：大模型系统怎么控成本？ 模型分级路由（简单任务用小模型）、缓存（语义缓存复用相似问答、前缀缓存复用 system prompt）、Prompt 与上下文精简、限制输出长度、离线任务走 Batch API、自托管时用量化和高吞吐引擎提升单卡产出。

Q：系统设计题怎么答出彩？ 别只画框图，要：澄清需求与规模、给出量化估算（QPS/显存/Token 成本）、主动讲清关键权衡、设计失败降级路径、强调评估与持续迭代闭环。

AI 系统设计专题 ​

通用方法论：怎么答系统设计题 ​

大模型系统的通用架构 ​

高频场景一：高并发大模型推理服务 ​

高频场景二：企业知识库问答（RAG） ​

高频场景三：大模型私有化部署 ​

高频场景四：实时/流式对话系统 ​

系统设计答题加分项 ​

高频追问 ​