Skip to content

大模型学习路线

给想系统入门大模型的同学一条清晰路径。无论你是算法、应用还是后端工程师转型,都能按这条线由浅入深。每个阶段都标注了本站对应的章节。

按背景选择你的起点

你的背景可以跳过重点投入预计周期
后端/Java 工程师工程化常识阶段一理论 + 阶段三 RAG + 阶段四 Agent(最快变现的转型路径)3~6 个月业余时间
应届/在校生全链路走完;阶段一打牢(面试爱考原理),项目要有完整闭环6~12 个月
算法/研究背景阶段一大部分阶段五微调对齐 + 前沿专题,深挖训练与 RL2~4 个月补工程
产品/零基础转行先走 零基础入门,再从阶段二应用层切入视投入而定

你需要补什么?

如果你已有编程/工程基础(尤其是后端工程师),转型大模型主要补三块:

  1. AI 基础理论:神经网络、Transformer、Attention、Embedding。
  2. Python 与 AI 生态:Python、NumPy/Pandas、HuggingFace、PyTorch(用到再深入)。
  3. 大模型特有范式:Prompt Engineering、RAG、Agent、微调、推理部署。

工程经验(系统设计、API、数据处理、调试、高并发)是你的优势——大模型落地本质还是工程。

阶段一:地基(理论 + 调通 API)

目标:理解大模型「为什么能说话」,能熟练调用各家 API。

  • 神经网络与 Transformer 基础:看 Transformer 架构Attention 与变体位置编码Tokenizer
  • 推荐补充:3Blue1Brown 神经网络系列、李沐《动手学深度学习》、《Attention Is All You Need》(读懂架构图)。
  • 实操:调通 OpenAI / Claude / 通义千问等 API,理解 Token、上下文窗口、流式输出、多轮对话。

阶段二:应用(Prompt + 框架 + 第一个项目)

目标:能用 Prompt 和框架搭出可用的 LLM 应用。

  • Prompt 工程:Zero/Few-shot、CoT、ReAct、结构化输出、注入防护。
  • LangChain 与应用开发框架LLM 应用开发实战:链式调用、记忆、流式、Function Calling、服务化。
  • 推荐课程:吴恩达《ChatGPT Prompt Engineering for Developers》《LangChain for LLM Application Development》(DeepLearning.AI,免费)。
  • 实操:做一个带多轮对话、流式输出的 AI 助手并服务化。

阶段三:RAG(检索增强,企业最核心)

目标:能独立设计、实现、评估一个 RAG 系统。这是企业 AI 落地最高频的能力。

  • RAG 基础与流程Embedding 与向量数据库RAG 进阶与优化
  • 关键能力:切分策略、Embedding/向量库选型、混合检索、Rerank、RAGAS 评估、引用溯源、增量更新。
  • 推荐:吴恩达《Building and Evaluating Advanced RAG》;研究开源产品 Dify、FastGPT 的实现。
  • 实操:构建一个企业知识库问答系统。

阶段四:Agent(让模型会「做事」)

目标:能设计单 Agent 与多 Agent 系统。

阶段五:工程化(微调 + 部署)

目标:能微调开源模型并部署成服务。

阶段六:综合 + 求职

面试前 4 周冲刺时间表

周次任务
第 1 周过一遍 高频面试题速记,标记答不上来的题,回到对应详解页补
第 2 周主攻 手撕代码题解集:每道题默写一遍;复习自己简历项目的技术细节与量化指标
第 3 周按目标岗位刷 分岗位真题;准备 2~3 个系统设计题的完整答案(RAG 系统/高并发服务)
第 4 周模拟面试(讲项目 + 追问),补前沿话题(DeepSeek/推理模型),查缺补漏

每个阶段的检验标准:能不看资料给别人讲明白 + 能写出可运行的最小实现。只看不练 = 没学。

能力里程碑

阶段能做什么
入门调用各家 API、写高质量 Prompt、用框架搭基础应用
进阶独立设计实现并评估 RAG 系统、构建向量搜索
高级设计 Agent 系统、微调模型、私有化部署
资深承担 AI 基础设施建设、技术选型与架构决策

学习资源清单见 学习资源汇总

基于 MIT 许可发布