大模型是怎么工作的（直觉版）

这一页用最少的术语、零公式，把「大模型为什么能聊天」讲清楚。如果你完全没接触过 AI，从这里开始；想看严谨原理，再去 Transformer 架构详解。目标是建立正确的直觉，避免被「AI 在思考/有意识」之类的误解带偏。

一句话本质：它在玩「文字接龙」

大模型（LLM）的核心机制朴素得惊人：根据前面的文字，预测下一个最可能出现的词（token），然后把预测出的词接上去，再预测下一个，循环往复。

输入：今天天气真
预测：好（85%）／不错（8%）／热（4%）…
输出：今天天气真好
再预测：，（…）→ 今天天气真好，
再预测：适合（…）→ 今天天气真好，适合…

就这么一个字一个字「续写」，组成了你看到的流畅回答。ChatGPT 本质是一个极其强大的「自动补全」。

反直觉的地方：它没有「先想好答案再说」，而是边说边生成，每个字都是当下基于前文算出来的概率采样。理解这一点，就能理解它为什么会「一本正经地胡说八道」——见能力边界与误区。

二、token：模型眼里的「字」

模型不是按汉字/字母处理文本，而是按 token（词元）——可以理解成「常见的字、词或词片段」。比如「苹果」可能是 1 个 token，「apple」可能是 1 个，而一个生僻词可能被拆成几个 token。

模型的输入输出都是 token，计费、上下文长度也按 token 算。
中文通常 1 个汉字约 1~2 个 token，英文 1 个单词约 1~2 个 token。
详见 Tokenizer 与分词。

三、它怎么「学会」说话的？两个阶段

阶段一：预训练（读遍互联网）

把海量文本（网页、书籍、代码……）喂给模型，让它反复做「完形填空 / 文字接龙」练习。为了把下一个词预测得更准，模型被迫学会了语法、事实、推理模式、写作风格——知识是「压缩」进参数里的副产品。

这一步耗费巨大算力（成千上万张显卡训练数月），得到一个「什么都懂一点但不太听话」的基座模型。

阶段二：后训练（学会当助手）

基座模型只会续写，不会「回答问题」。后训练教它变成有用的助手：

指令微调（SFT）：给它看大量「问题→好答案」的范例，学会「被提问时要回答」。
对齐（RLHF/DPO）：用人类偏好打分，让它的回答更有用、更诚实、更安全。

这就是为什么 ChatGPT 比原始 GPT「懂事」。详见微调范式和 RLHF 对齐。

四、参数、权重是什么？

你常听到「7B」「70B」——B 是 billion（十亿），指模型的参数数量。参数就是模型内部的一堆数字（权重），训练就是不断微调这些数字，让预测更准。参数越多，模型「容量」通常越大、越能记住和推理，但也越贵越慢。

可以打个比方：参数是模型大脑里的「神经连接强度」，训练就是反复调整这些连接，直到它能很好地完成文字接龙。

五、为什么同一个问题答案会变？

因为生成下一个词时，模型是在概率分布里采样，带一点随机性（由 temperature 等参数控制）。所以同样的问题，多问几次答案会不同。把随机性调到最低（贪心解码）会更稳定但更死板。详见解码与采样策略。

六、上下文窗口：模型的「短期记忆」

模型一次能「看到」的 token 总量有上限，叫上下文窗口（如 128K token）。对话历史、你的问题、它的回答都占用这个窗口。

超出窗口的早期内容会被「忘记」——所以长对话里它可能忘了开头说过什么。
模型本身没有跨对话的记忆，关掉重开就「失忆」了（除非应用层做了记忆系统，见 Agent 记忆）。

七、几个重要的「它其实没有」

你可能以为	实际上
它在「思考」	它在算下一个词的概率，没有意识
它「知道」自己说得对不对	它对「编造」和「事实」一视同仁，都是高概率续写
它能「记住」你	默认无长期记忆，靠应用层外挂
它会「上网查」	默认不会，除非接了搜索工具
它的知识是最新的	有知识截止日期，之后的事不知道（除非联网）

高频追问（面向新手）

Q：大模型是不是有智能/意识？ 没有意识。它是一个基于统计规律预测下一个词的程序，没有目标、情感或自我。它表现出的「智能」是从海量文本里学到的模式，本质是非常强大的模式匹配与生成，不是人类意义上的思考。

Q：它为什么会「一本正经地胡说八道」（幻觉）？ 因为它的目标是「生成看起来合理、连贯的文字」，而不是「说真话」。当它不确定时，仍会按概率生成最「像答案」的内容，哪怕是编的。它分不清自己是在回忆事实还是在编造。缓解办法见能力边界与误区和 RAG。

Q：它能算数 / 写代码，是真的会吗？ 是从大量例子里学到的模式。简单的它很在行；复杂多步计算容易错（因为是「续写」不是真的执行运算），所以工程上常让它调用计算器/代码执行工具来兜底。

Q：参数多就一定更聪明吗？ 通常更强，但不绝对。数据质量、训练方法、对齐质量同样关键——一个数据好、对齐好的小模型可能比粗制滥造的大模型更好用（见 SLM 和缩放定律）。

Q：我该怎么用好它？ 记住它是「概率续写器」：把问题说清楚、给足背景（它没有读心术）、复杂任务拆成小步、对事实性回答保持核查、需要最新信息时给它联网或资料。系统方法见 Prompt 工程。

大模型是怎么工作的（直觉版） ​

一句话本质：它在玩「文字接龙」 ​

二、token：模型眼里的「字」 ​

三、它怎么「学会」说话的？两个阶段 ​

阶段一：预训练（读遍互联网） ​

阶段二：后训练（学会当助手） ​

四、参数、权重是什么？ ​

五、为什么同一个问题答案会变？ ​

六、上下文窗口：模型的「短期记忆」 ​

七、几个重要的「它其实没有」 ​

高频追问（面向新手） ​