Skip to content

大模型是怎么工作的(直觉版)

这一页用最少的术语、零公式,把「大模型为什么能聊天」讲清楚。如果你完全没接触过 AI,从这里开始;想看严谨原理,再去 Transformer 架构详解。目标是建立正确的直觉,避免被「AI 在思考/有意识」之类的误解带偏。

一句话本质:它在玩「文字接龙」

大模型(LLM)的核心机制朴素得惊人:根据前面的文字,预测下一个最可能出现的词(token),然后把预测出的词接上去,再预测下一个,循环往复。

输入:今天天气真
预测:好(85%)/不错(8%)/热(4%)…
输出:今天天气真好
再预测:,(…)→ 今天天气真好,
再预测:适合(…)→ 今天天气真好,适合…

就这么一个字一个字「续写」,组成了你看到的流畅回答。ChatGPT 本质是一个极其强大的「自动补全」。

反直觉的地方:它没有「先想好答案再说」,而是边说边生成,每个字都是当下基于前文算出来的概率采样。理解这一点,就能理解它为什么会「一本正经地胡说八道」——见 能力边界与误区

二、token:模型眼里的「字」

模型不是按汉字/字母处理文本,而是按 token(词元)——可以理解成「常见的字、词或词片段」。比如「苹果」可能是 1 个 token,「apple」可能是 1 个,而一个生僻词可能被拆成几个 token。

  • 模型的输入输出都是 token,计费、上下文长度也按 token 算。
  • 中文通常 1 个汉字约 1~2 个 token,英文 1 个单词约 1~2 个 token。
  • 详见 Tokenizer 与分词

三、它怎么「学会」说话的?两个阶段

阶段一:预训练(读遍互联网)

把海量文本(网页、书籍、代码……)喂给模型,让它反复做「完形填空 / 文字接龙」练习。为了把下一个词预测得更准,模型被迫学会了语法、事实、推理模式、写作风格——知识是「压缩」进参数里的副产品

这一步耗费巨大算力(成千上万张显卡训练数月),得到一个「什么都懂一点但不太听话」的基座模型

阶段二:后训练(学会当助手)

基座模型只会续写,不会「回答问题」。后训练教它变成有用的助手:

  • 指令微调(SFT):给它看大量「问题→好答案」的范例,学会「被提问时要回答」。
  • 对齐(RLHF/DPO):用人类偏好打分,让它的回答更有用、更诚实、更安全。

这就是为什么 ChatGPT 比原始 GPT「懂事」。详见 微调范式RLHF 对齐

四、参数、权重是什么?

你常听到「7B」「70B」——B 是 billion(十亿),指模型的参数数量。参数就是模型内部的一堆数字(权重),训练就是不断微调这些数字,让预测更准。参数越多,模型「容量」通常越大、越能记住和推理,但也越贵越慢。

可以打个比方:参数是模型大脑里的「神经连接强度」,训练就是反复调整这些连接,直到它能很好地完成文字接龙。

五、为什么同一个问题答案会变?

因为生成下一个词时,模型是在概率分布里采样,带一点随机性(由 temperature 等参数控制)。所以同样的问题,多问几次答案会不同。把随机性调到最低(贪心解码)会更稳定但更死板。详见 解码与采样策略

六、上下文窗口:模型的「短期记忆」

模型一次能「看到」的 token 总量有上限,叫上下文窗口(如 128K token)。对话历史、你的问题、它的回答都占用这个窗口。

  • 超出窗口的早期内容会被「忘记」——所以长对话里它可能忘了开头说过什么。
  • 模型本身没有跨对话的记忆,关掉重开就「失忆」了(除非应用层做了记忆系统,见 Agent 记忆)。

七、几个重要的「它其实没有」

你可能以为实际上
它在「思考」它在算下一个词的概率,没有意识
它「知道」自己说得对不对它对「编造」和「事实」一视同仁,都是高概率续写
它能「记住」你默认无长期记忆,靠应用层外挂
它会「上网查」默认不会,除非接了搜索工具
它的知识是最新的有知识截止日期,之后的事不知道(除非联网)

高频追问(面向新手)

Q:大模型是不是有智能/意识? 没有意识。它是一个基于统计规律预测下一个词的程序,没有目标、情感或自我。它表现出的「智能」是从海量文本里学到的模式,本质是非常强大的模式匹配与生成,不是人类意义上的思考。

Q:它为什么会「一本正经地胡说八道」(幻觉)? 因为它的目标是「生成看起来合理、连贯的文字」,而不是「说真话」。当它不确定时,仍会按概率生成最「像答案」的内容,哪怕是编的。它分不清自己是在回忆事实还是在编造。缓解办法见 能力边界与误区RAG

Q:它能算数 / 写代码,是真的会吗? 是从大量例子里学到的模式。简单的它很在行;复杂多步计算容易错(因为是「续写」不是真的执行运算),所以工程上常让它调用计算器/代码执行工具来兜底。

Q:参数多就一定更聪明吗? 通常更强,但不绝对。数据质量、训练方法、对齐质量同样关键——一个数据好、对齐好的小模型可能比粗制滥造的大模型更好用(见 SLM缩放定律)。

Q:我该怎么用好它? 记住它是「概率续写器」:把问题说清楚、给足背景(它没有读心术)、复杂任务拆成小步、对事实性回答保持核查、需要最新信息时给它联网或资料。系统方法见 Prompt 工程

基于 MIT 许可发布