大模型零基础入门

完全没接触过 AI，也想搞懂大模型、甚至转行进入这个领域？这篇就是为你准备的。我们用最少的术语，帮你建立正确的认知和清晰的起点。

先理清几个名词的关系

刚入门最容易被一堆缩写绕晕。其实它们是层层包含的关系：

人工智能 AI（让机器变聪明的所有方法）
  └── 机器学习 ML（让机器从数据中自己学规律）
        └── 深度学习 DL（用「神经网络」来学，是当前主流）
              └── 大语言模型 LLM（专门处理语言的超大神经网络，如 GPT）
                    └── 生成式 AI / AIGC（能生成文字、图片、代码……）

AI：宽泛概念，让机器表现出智能。
机器学习：不靠人写死规则，而是喂数据让机器自己总结规律。
深度学习：机器学习的一种，用多层「神经网络」，是现在大模型的基础。
大模型（LLM）：在海量文本上训练出来的超大神经网络，核心本领是「预测下一个词」。

大模型到底在做什么？

一句话：大模型本质是一个「超级文字接龙」机器。

你给它一段话，它根据训练时见过的海量文本，一个字一个字地predict「接下来最可能是什么」。比如输入「中国的首都是」，它预测出「北」，再预测「京」。

神奇的是：当这个「接龙」能力足够强、模型足够大时，它涌现出了理解、推理、写代码、对话等能力——这就是大模型令人惊讶的地方。想深入可看核心概念总览。

入门最少必要概念（看这 5 个就够开始）

概念	一句话理解
Token	模型处理文字的最小单位，约等于「字/词的碎片」，计费也按它算
参数（如 7B）	模型内部的「旋钮」数量，7B = 70 亿个，越多通常越强也越贵
上下文窗口	模型一次能「记住」的文字长度，超出就会忘
Prompt（提示词）	你给模型的输入指令，写得好不好直接决定效果
幻觉	模型会一本正经地胡说八道、编造事实

更多名词见大模型术语速查表。

怎么开始？（务实路径）

你不需要先啃完高数和论文才能上手。推荐顺序：

先用起来：去用 ChatGPT / 通义千问 / DeepSeek / Kimi，亲手体验它能做什么、不能做什么。
学会提问（Prompt）：这是性价比最高的技能，见 Prompt 工程。
调通一次 API：用 Python 调一次大模型 API，理解「输入→输出」的过程（几行代码的事）。
理解基本原理：回头看核心概念总览和 Transformer，知道它为什么 work。
按方向深入：想做应用走 RAG/Agent；想做算法补数学基础和训练原理。

完整规划见大模型学习路线。

三种主要「岗位方向」

了解方向有助于你选择学什么：

大模型算法 / 研究：偏训练、微调、模型结构、论文。需要较强数学和 PyTorch 功底。
大模型应用开发：用 API + RAG + Agent 把模型做成产品。工程能力为主，门槛相对友好。
大模型工程 / 推理部署：把模型高效、稳定地跑起来对外服务（量化、vLLM、显卡）。

如果你是程序员（尤其后端），应用开发方向通常最快上手——你的工程经验直接复用。

新手常见误区

「必须先精通数学才能学」：不对。应用方向用 API 就能做很多事，数学边用边补即可。
「大模型什么都对」：错。它会幻觉、会过时、不擅长精确计算，要学会验证和外挂工具（RAG）。
「参数越大越好」：不一定。小模型 + 好数据 + 合适方法常常更实用、更便宜。
「Prompt 不重要」：恰恰相反，同一个模型，会不会提问效果天差地别。
「学完一个框架就够了」：技术迭代极快，重要的是理解原理，工具会变。

下一步

📖 不懂的名词 → 术语速查表
🧮 想补数学 → 必备数学基础
🗺️ 想要完整规划 → 大模型学习路线
🧠 想懂原理 → 核心概念总览

记住：先上手、再深入。大模型领域最不缺的就是「等我准备好了再开始」却一直没开始的人。

大模型零基础入门 ​

先理清几个名词的关系 ​

大模型到底在做什么？ ​

入门最少必要概念（看这 5 个就够开始） ​

怎么开始？（务实路径） ​

三种主要「岗位方向」 ​

新手常见误区 ​

下一步 ​