Skip to content

大模型零基础入门

完全没接触过 AI,也想搞懂大模型、甚至转行进入这个领域?这篇就是为你准备的。我们用最少的术语,帮你建立正确的认知和清晰的起点。

先理清几个名词的关系

刚入门最容易被一堆缩写绕晕。其实它们是层层包含的关系:

人工智能 AI(让机器变聪明的所有方法)
  └── 机器学习 ML(让机器从数据中自己学规律)
        └── 深度学习 DL(用「神经网络」来学,是当前主流)
              └── 大语言模型 LLM(专门处理语言的超大神经网络,如 GPT)
                    └── 生成式 AI / AIGC(能生成文字、图片、代码……)
  • AI:宽泛概念,让机器表现出智能。
  • 机器学习:不靠人写死规则,而是喂数据让机器自己总结规律。
  • 深度学习:机器学习的一种,用多层「神经网络」,是现在大模型的基础。
  • 大模型(LLM):在海量文本上训练出来的超大神经网络,核心本领是「预测下一个词」。

大模型到底在做什么?

一句话:大模型本质是一个「超级文字接龙」机器。

你给它一段话,它根据训练时见过的海量文本,一个字一个字地predict「接下来最可能是什么」。比如输入「中国的首都是」,它预测出「北」,再预测「京」。

神奇的是:当这个「接龙」能力足够强、模型足够大时,它涌现出了理解、推理、写代码、对话等能力——这就是大模型令人惊讶的地方。想深入可看 核心概念总览

入门最少必要概念(看这 5 个就够开始)

概念一句话理解
Token模型处理文字的最小单位,约等于「字/词的碎片」,计费也按它算
参数(如 7B)模型内部的「旋钮」数量,7B = 70 亿个,越多通常越强也越贵
上下文窗口模型一次能「记住」的文字长度,超出就会忘
Prompt(提示词)你给模型的输入指令,写得好不好直接决定效果
幻觉模型会一本正经地胡说八道、编造事实

更多名词见 大模型术语速查表

怎么开始?(务实路径)

不需要先啃完高数和论文才能上手。推荐顺序:

  1. 先用起来:去用 ChatGPT / 通义千问 / DeepSeek / Kimi,亲手体验它能做什么、不能做什么。
  2. 学会提问(Prompt):这是性价比最高的技能,见 Prompt 工程
  3. 调通一次 API:用 Python 调一次大模型 API,理解「输入→输出」的过程(几行代码的事)。
  4. 理解基本原理:回头看 核心概念总览Transformer,知道它为什么 work。
  5. 按方向深入:想做应用走 RAG/Agent;想做算法补 数学基础 和训练原理。

完整规划见 大模型学习路线

三种主要「岗位方向」

了解方向有助于你选择学什么:

  • 大模型算法 / 研究:偏训练、微调、模型结构、论文。需要较强数学和 PyTorch 功底。
  • 大模型应用开发:用 API + RAG + Agent 把模型做成产品。工程能力为主,门槛相对友好。
  • 大模型工程 / 推理部署:把模型高效、稳定地跑起来对外服务(量化、vLLM、显卡)。

如果你是程序员(尤其后端),应用开发方向通常最快上手——你的工程经验直接复用。

新手常见误区

  • 「必须先精通数学才能学」:不对。应用方向用 API 就能做很多事,数学边用边补即可。
  • 「大模型什么都对」:错。它会幻觉、会过时、不擅长精确计算,要学会验证和外挂工具(RAG)。
  • 「参数越大越好」:不一定。小模型 + 好数据 + 合适方法常常更实用、更便宜。
  • 「Prompt 不重要」:恰恰相反,同一个模型,会不会提问效果天差地别。
  • 「学完一个框架就够了」:技术迭代极快,重要的是理解原理,工具会变。

下一步

记住:先上手、再深入。大模型领域最不缺的就是「等我准备好了再开始」却一直没开始的人。

基于 MIT 许可发布