Day 2：LLM 原理压缩理解

学习目标

今天的任务是建立对大语言模型（LLM）工作原理的准确认知。

注意，这里的”准确”不是指你需要理解 Transformer 的数学推导，而是指你需要建立正确的直觉——大模型到底是什么？它怎么工作？它能做什么？它不能做什么？为什么它会产生幻觉？为什么它不是数据库也不是搜索引擎？

很多人对大模型有两种极端的错误认知：一种是把它神化，觉得它无所不能；另一种是把它贬低，觉得它就是个高级补全工具。今天的任务就是帮你建立一种介于两者之间的、基于工程事实的理解。

完成今天的学习后，你应该能用自己的话解释大模型从输入到输出的完整流程，能讲清幻觉的来源，能说明为什么企业应用必须给大模型加约束。

核心概念

一、什么是大语言模型

大语言模型的本质是一个文字接龙机器。

这句话听起来简单，但它准确描述了大模型的工作方式。你给它一段文字，它预测下一个最可能出现的词。然后把你给的文字加上它预测的词，再预测下一个词。如此循环，直到生成一个完整的回答。

GPT 的全称是 Generative Pre-trained Transformer，翻译过来就是”生成式预训练 Transformer”。Generative 说的是它的工作方式——生成文本。Pre-trained 说的是它的训练阶段——在海量数据上预先训练。Transformer 说的是它的底层架构。

为什么叫”大”语言模型？“大”指的是两个东西：参数量大和数据量大。GPT-3 有 1750 亿个参数，GPT-4 的参数量虽然官方没有公布，但据估计在万亿级别。训练数据包括互联网上的网页、书籍、论文、代码等，总量达到数万亿个 Token。

但大模型的”大”不仅仅意味着规模的堆砌。规模的增大带来了一个质变——涌现能力。当模型参数量超过某个阈值后，它会突然展现出一些小模型不具备的能力，比如复杂的逻辑推理、多语言理解、代码生成等。这种”量变引起质变”的现象，是大模型研究中最令人兴奋的发现之一。

理解大模型的另一个关键点是：它是一个概率系统，不是一个知识库。它不存储事实，它存储的是词语之间的统计关系。当你问”中国的首都是哪里”，模型并不是从某个知识库里查找答案，而是根据训练时见过的大量文本，知道”中国”和”首都”后面最可能跟着的词是”北京”。

这个区别极其重要。存储事实的系统要么知道要么不知道，不存在中间状态。但概率系统不同，它可能很确定（99% 的概率下一个词是”北京”），也可能不太确定（60% 的概率）。而且当训练数据中存在矛盾信息时，模型可能学到错误的统计关系。

二、Token

Token 是大模型处理文本的基本单位。

很多人以为 Token 就是”词”，这个理解不完全准确。Token 是模型自己定义的一种文本切分方式，介于字符和词之间。在英文中，一个常见词可能是一个 Token（比如”hello”），但一个不常见的词可能被拆成多个 Token（比如”synergy”可能被拆成”syn”和”ergy”两个 Token）。在中文中，一个汉字通常是一个 Token，但有些常见词组可能被合并为一个 Token。

Token 的存在是为了平衡效率和灵活性。如果把文本按字符切分，序列会很长，模型处理效率低。如果按词切分，词表会太大，遇到新词就没办法处理。Token 是一种折中方案。

Token 与你的实际工作有直接关系，因为大模型的计费是按 Token 来的。GPT-4 的输入大约每 1000 个 Token 收费 0.03 美元，输出每 1000 个 Token 收费 0.06 美元。一个汉字大约是 1-2 个 Token，一段 1000 字的中文大约是 1500-2000 个 Token。如果你做企业应用，每天有几千次调用，Token 费用就是一笔不小的开支。

Token 还与模型的上下文窗口有关。上下文窗口是模型单次能处理的最大 Token 数量。如果你的输入加上期望的输出超过了上下文窗口，模型就无法正常工作。所以在设计 AI 应用时，你需要精打细算地管理 Token 的使用。

三、Context Window（上下文窗口）

上下文窗口是大模型单次能处理的最大 Token 数量。

这个概念可以类比为人的短期记忆容量。你在一次对话中能记住的信息量是有限的，模型也一样。早期模型的上下文窗口只有几千个 Token，GPT-3 是 4K，GPT-4 Turbo 提升到了 128K，Claude 3 更是达到了 200K，一些最新模型甚至支持 1M 以上的上下文。

上下文窗口的大小直接影响你能用模型做什么。4K 的窗口意味着你一次只能输入大约 3000 字的中文——差不多一篇短文的长度。128K 的窗口则可以放下一整本书。200K 可以放下几本书。

但上下文窗口大不代表模型能完美利用所有上下文。研究表明，模型对上下文开头和结尾的信息处理得比较好，对中间部分的信息容易”遗忘”。这被称为”中间位置遗忘效应”。所以当你把大量文档塞进上下文窗口时，放在中间位置的重要信息可能被模型忽略。

在实际应用中，上下文窗口的管理是一个重要的工程问题。你需要决定：多少空间留给系统提示（System Prompt），多少空间留给对话历史，多少空间留给检索到的知识，多少空间留给模型的输出。这些空间的分配策略直接影响应用的效果和成本。

四、Embedding（向量化）

Embedding 是把文本转换成数学向量的过程。

什么是向量？简单说，向量就是一组数字。比如一个 1536 维的向量就是 1536 个数字组成的列表。Embedding 的作用是把文本的语义信息编码到这组数字里。

关键是：语义相近的文本，转换后的向量在数学空间里也相近。比如”苹果公司发布了新款 iPhone”和”Apple 发布了最新的智能手机”这两句话用词不同，但意思相近，所以它们转换后的向量距离很近。而”苹果公司发布了新款 iPhone”和”今天天气不错”的向量距离就很远。

这个特性是 RAG 的基础。当用户提问时，系统把问题转成向量，然后在向量数据库里找到语义最接近的文档片段，把这些片段作为上下文传给大模型，让模型基于这些真实文档来回答问题。没有 Embedding，RAG 就无法实现语义检索，只能靠关键词匹配，效果会大打折扣。

Embedding 模型是专门训练用来做向量化的模型，比如 OpenAI 的 text-embedding-ada-002、BGE 系列、E5 系列等。不同的 Embedding 模型在向量维度、语义捕捉能力、多语言支持、处理速度上各有差异。选择合适的 Embedding 模型是 RAG 系统设计中的关键决策之一。

五、Attention（注意力机制）

Attention 机制是 Transformer 架构的核心创新，也是大模型能力的基础。

Attention 解决的核心问题是：在处理一段文本时，模型怎么知道哪些词与其他词关系最密切？

举个例子。在句子”银行门口有一排柳树，河边的银行也很漂亮”中，“银行”这个词出现了两次。第一个”银行”指的是金融机构，第二个”银行”可能指的是河岸。人能通过上下文区分两个”银行”的含义，Attention 机制让模型也能做到这一点。

当模型处理第一个”银行”时，Attention 机制会让它重点关注”门口”和”柳树”这些词，从而推断出这是金融机构。处理第二个”银行”时，会重点关注”河边”，推断出这是河岸的意思。

更准确地说，Attention 机制为每个词计算一组权重，表示它应该对上下文中的每个其他词投入多少”注意力”。权重高的词对当前词的理解贡献大，权重低的词贡献小。这种机制让模型能够捕捉文本中的长距离依赖关系——一个句子开头的词可能和结尾的词有强烈的关联，Attention 能发现这种关联。

你不需要理解 Attention 的数学细节，但你需要知道它为什么重要：它是大模型理解上下文的核心能力。没有 Attention，模型就只能逐词处理文本，无法理解词语之间的关系。有了 Attention，模型就能看到文本的全貌，理解每个词在上下文中的准确含义。

六、Transformer

Transformer 是大语言模型的底层架构，2017 年由 Google 团队在论文《Attention Is All You Need》中提出。

在 Transformer 之前，处理序列数据（文本、语音等）的主流方法是 RNN（循环神经网络）。RNN 的问题是它必须按顺序处理文本——先处理第一个词，再处理第二个，依次进行。这种顺序处理有两个致命缺陷：一是无法并行计算，训练速度慢；二是处理长序列时会”遗忘”前面的内容。

Transformer 彻底改变了这一点。它用 Attention 机制替代了顺序处理，可以同时看到文本中的所有词，而且可以并行计算。这带来了两个巨大优势：训练速度快得多（可以利用 GPU 的并行计算能力），而且能更好地处理长距离依赖关系。

Transformer 的核心组件包括：

编码器（Encoder）：负责理解输入文本，提取语义信息。BERT 系列模型主要使用编码器结构。

解码器（Decoder）：负责生成输出文本，逐个 Token 地预测。GPT 系列模型主要使用解码器结构。

编码器-解码器（Encoder-Decoder）：同时使用两者，编码器理解输入，解码器生成输出。原始 Transformer 和 T5 等模型使用这种结构。

你目前接触的大部分大语言模型（GPT 系列、Claude、LLaMA 等）都是基于 Transformer 解码器的架构。

七、Pretraining（预训练）

预训练是大模型获取知识和能力的第一个阶段。

在预训练阶段，模型被喂入海量的文本数据（通常来自互联网），任务是预测下一个 Token。模型通过反复做这个”文字接龙”任务，逐渐学会了语言的语法、语义、常识知识、推理能力等。

预训练的代价极其高昂。GPT-3 的预训练据说花费了超过 400 万美元的算力成本，GPT-4 更是估计在 1 亿美元以上。训练时间通常需要几周到几个月，使用数千块高端 GPU。

预训练阶段决定了模型的”能力天花板”。一个预训练充分的模型具备广泛的世界知识、语言理解能力和推理能力。但预训练也有一些局限：

知识有截止日期。模型只学到了训练数据中包含的信息，训练之后发生的事情它一无所知。

知识可能不准确。训练数据来自互联网，包含大量错误信息和矛盾信息。模型会从这些数据中学到错误的知识。

没有任务指向性。预训练的模型只学会了”接话”，不知道怎么按照人的指令行事。你给它一段话，它只会继续往下续写，而不是按照你的要求回答问题。

八、Instruction Tuning（指令微调）

指令微调是让预训练模型学会”听指令”的关键步骤。

预训练后的模型就像一个博览群书但不会听话的人——他什么都知道，但不知道怎么按照你的要求回答问题。你问他”中国的首都是哪里”，他可能接着往下写”中国是世界上人口最多的国家之一，位于亚洲东部…”，而不是直接回答”北京”。

指令微调通过一组精心设计的”指令-回答”对来训练模型，让它学会在收到指令时，按照指令的要求给出回答。这些训练数据通常包含几十万到几百万条人工标注的对话。

指令微调后的模型行为发生了质变。它不再只是续写文本，而是能理解用户的意图，按照指令的格式和要求给出回答。你让它分析行业，它就分析行业；你让它写代码，它就写代码；你让它总结文章，它就总结文章。

九、RLHF（基于人类反馈的强化学习）

RLHF 是进一步提升模型回答质量的训练方法。

指令微调让模型学会了听指令，但模型的回答可能不够好——可能太啰嗦、可能有偏见、可能不够准确。RLHF 的目的是让模型的回答更符合人类的偏好。

RLHF 的工作流程大致是这样：让模型对同一个问题生成多个回答，人类标注员对这些回答进行排序（哪个最好、哪个次之、哪个最差），用这些排序数据训练一个奖励模型，然后用这个奖励模型通过强化学习进一步优化大模型。

RLHF 让模型的回答变得更安全（减少有害内容）、更有帮助（直接回答问题而不是绕弯子）、更符合人类的表达习惯。但它也有一些争议——有人认为 RLHF 让模型变得过于”政治正确”，在某些问题上回避而不是直接回答。

十、Inference（推理/生成）

Inference 是模型在实际使用时的过程——你给模型一段输入，它生成一段输出。

推理过程是逐 Token 进行的。每生成一个 Token，模型都会考虑整个上下文（输入加上已生成的 Token），预测下一个最可能的 Token。这意味着生成长文本需要多次前向传播，生成 1000 个 Token 就需要 1000 次计算。

这也解释了为什么长文本生成比短文本慢得多，为什么流式输出（逐字显示）比一次性返回用户体验更好。流式输出不需要等全部生成完，而是每生成一个 Token 就发送给用户。

推理过程的计算成本也很高。虽然不像预训练那样需要大量 GPU，但每次推理都需要一定的计算资源和时间。这也是为什么调用大模型 API 需要付费——算力和带宽都是有成本的。

十一、Temperature（温度）

Temperature 是控制模型输出随机性的参数，取值范围通常是 0 到 2。

Temperature 越低，模型越倾向于选择概率最高的 Token，输出越确定、越保守。Temperature 为 0 时，模型永远选择概率最高的 Token，每次输出都一样（如果其他参数也固定的话）。

Temperature 越高，模型越倾向于选择概率较低的 Token，输出越随机、越有创造性。高 Temperature 下，模型可能给出意想不到的回答——有时候是好的”有创意”，有时候是坏的”不靠谱”。

实际应用中的 Temperature 选择：

精确任务（数学计算、数据分析、事实问答）用低 Temperature（0-0.3），你需要准确稳定的输出。

平衡任务（文本翻译、总结、分类）用中等 Temperature（0.3-0.7），既准确又有一定的灵活性。

创意任务（写作、头脑风暴、角色扮演）用高 Temperature（0.7-1.2），鼓励多样性和创造性。

企业应用中，Temperature 的选择需要根据具体场景决定。同一个系统，不同功能模块可能使用不同的 Temperature。

十二、Hallucination（幻觉）

幻觉是大模型编造看似合理但实际错误的信息的现象。

幻觉是当前大模型最严重的问题之一，也是企业应用落地最大的障碍。

幻觉有几种表现形式：

事实性幻觉：模型编造不存在的事实。比如你问某个冷门历史事件的细节，模型可能编造一个看起来很真实但完全是虚构的故事。

来源幻觉：模型引用不存在的论文、书籍或网址。它会一本正经地说”根据 Smith 等人 2023 年在 Nature 上发表的论文…”，但这个论文根本不存在。

能力幻觉：模型声称自己能做做不到的事。比如它可能说”我已经帮你查了最新的数据”，但实际上它根本没有联网，所有数据都是编造的。

推理幻觉：模型在逻辑推理过程中出错，但错误的过程看起来很合理。比如做数学题时步骤看起来没问题，但最终答案是错的。

幻觉的根源在于大模型的工作原理——它是概率生成系统，不是知识检索系统。它根据训练数据中的统计规律来生成文本，而不是去事实库中查找答案。当模型对某个问题没有足够的训练数据支撑时，它不会说”我不知道”，而是根据概率继续生成，结果就是编造内容。

理解了幻觉的来源，你就能理解为什么企业应用必须给大模型加约束：用 RAG 限定回答的知识来源，用结构化输出控制格式，用评估层检查准确性，用安全层过滤高风险内容。不加约束的大模型在企业场景中是不可用的。

十三、为什么大模型不是数据库

大模型和数据库在信息处理上有根本性的区别。

数据库是确定性存储。你存入什么，就能精确取出什么。查询”张三的入职日期”，数据库返回的永远是那个精确的日期。数据库不会编造数据，不会记错，不会因为查询方式不同而给出不同答案。

大模型是概率生成。它不存储具体的事实，而是存储词语之间的统计关系。问同样的问题，可能得到不同的答案。问法的微小变化可能导致完全不同的输出。

在企业应用中，这意味着你不能把大模型当作数据查询工具。如果用户需要精确的数据（比如某笔订单的金额、某个客户的联系方式），应该让系统去查数据库，而不是让大模型凭”记忆”回答。大模型的角色是理解和组织信息，不是存储和检索数据。

十四、为什么大模型不是搜索引擎

搜索引擎和大模型都帮你获取信息，但工作方式完全不同。

搜索引擎是检索系统。它维护一个网页索引，当你搜索时，它从索引中找到最相关的网页，按相关性排序返回给你。你看到的是真实的网页链接，可以自己去验证信息。

大模型是生成系统。它不是去搜索某个信息源，而是根据自己的”知识”生成回答。它不会告诉你信息的来源，你也没办法验证它说的是不是真的。

搜索引擎的优点是信息可追溯、来源明确；缺点是返回的是网页链接而不是直接答案，用户需要自己筛选和阅读。大模型的优点是直接给出答案，使用体验好；缺点是答案可能不准确，而且无法溯源。

在企业应用中，这两者常常结合使用。大模型负责理解用户意图和组织答案，搜索引擎（或更一般地，检索系统）负责提供真实的信息来源。这就是 RAG 架构的思路。

十五、为什么企业应用需要 RAG / Tool Calling / Eval

把前面的知识串起来，就能理解为什么光靠大模型本身做不了企业应用。

企业需要准确的信息。大模型会幻觉，会编造。RAG 通过给模型提供真实的文档作为参考，让回答基于事实而不是模型的”猜测”。

企业需要执行动作。大模型只能生成文字，不能查数据库、不能发邮件、不能调系统。Tool Calling 让模型能够调用外部工具来执行实际操作。

企业需要可控的质量。大模型的输出不确定，同样的输入可能给出不同质量的回答。Eval 体系通过自动化评估和人工审核来持续监控和提升输出质量。

这三者——RAG、Tool Calling、Eval——是让大模型从”好玩的聊天工具”变成”可靠的业务系统”的关键基础设施。缺少任何一个，企业应用都会面临严重的可用性和可靠性问题。

概念关系图

大语言模型工作原理全景

训练阶段
+-------------------+     +-------------------+     +-------------------+
| Pretraining       | --> | Instruction       | --> | RLHF              |
| 预训练             |     | Tuning 指令微调    |     | 人类反馈强化学习   |
| (海量文本接龙)     |     | (学习听指令)       |     | (对齐人类偏好)     |
+-------------------+     +-------------------+     +-------------------+
         |                          |                         |
         v                          v                         v
    基础语言能力              任务执行能力               回答质量和安全性

推理阶段
+----------+    +----------+    +----------+    +----------+
| 用户输入  | -> | Token化  | -> |          | -> | Token    |
| (文字)    |    |          |    |          |    | 逐个生成 |
+----------+    +----------+    |  Trans-  |    +----------+
                                |  former  |         |
+----------+    +----------+    |  + Atten-|    +----------+
| Context  |    | Embed-   | -> |  tion   |    | 输出文本 |
| Window   |    | ding     |    |         |    +----------+
| (上下文)  |    | (向量化)  |    |          |
+----------+    +----------+    +----------+

幻觉来源
+------------------------------------------------------------------+
| 模型 = 概率生成系统，不是知识库                                    |
|                                                                  |
| 输入 -> 统计规律 -> 概率最高的下一个词 -> 统计规律 -> ... -> 输出 |
|                                                                  |
| 当训练数据不足或矛盾时:                                           |
| 高概率词 != 正确事实                                              |
| 看起来合理 != 实际正确                                            |
+------------------------------------------------------------------+

企业应用三件套
+----------+     +-------------+     +----------+
|   RAG    |     | Tool        |     |   Eval   |
| 供给事实  |     | Calling     |     | 质量保证 |
|          |     | 执行动作     |     |          |
+----------+     +-------------+     +----------+
     |                   |                  |
     +-------------------+------------------+
                         |
                  +------+------+
                  | 可靠的      |
                  | 企业AI系统  |
                  +-------------+

实战分析

用自己的话解释大模型工作流程

这个任务的目的是检验你是否真正理解了今天的内容，而不是死记硬背。

建议的讲解框架：从用户输入开始，讲述文本如何被 Token 化，如何经过 Transformer 的多层处理，如何在 Attention 机制的作用下理解上下文，如何逐 Token 生成输出，如何受到 Temperature 的影响。然后解释训练阶段——预训练如何获得语言能力，指令微调如何学会听指令，RLHF 如何对齐人类偏好。

关键是要把”概率生成”这个核心特征讲透。如果你能把”大模型是一个根据上下文概率预测下一个词的系统”这个本质解释清楚，听者就能理解为什么模型会产生幻觉、为什么需要 RAG、为什么需要结构化输出。

画 LLM 从输入到输出的流程图

这张图应该包含以下环节：用户输入原始文本、文本被 Tokenizer 切分为 Token 序列、Token 被转换为向量（Embedding）、向量经过 Transformer 多层处理（每层包含 Attention 和前馈网络）、最后一个 Token 的输出经过 Softmax 得到概率分布、根据概率分布和 Temperature 采样出下一个 Token、将新 Token 加入序列、重复直到生成结束符或达到最大长度。

画图的过程能帮你发现理解上的盲点。如果某个环节你画不出来或者画得很模糊，说明那个环节你没完全搞懂。

对比数据库、搜索引擎、大模型

建议用表格的形式对比，维度包括：工作原理、信息来源、输出确定性、可追溯性、适用场景、主要局限。

数据库：确定性存储和检索，信息来自结构化存储，输出完全确定，可精确追溯，适合精确查询，局限是只能查已有数据。

搜索引擎：索引和检索，信息来自互联网，返回网页链接而非答案，可追溯，适合信息查找，局限是需要用户自己筛选。

大模型：概率生成，信息来自训练数据的统计规律，输出不确定，不可追溯，适合理解和生成文本，局限是会幻觉。

用半导体良率分析场景解释大模型边界

半导体良率分析是一个典型的需要精确数据的场景。这个场景能很好地展示大模型的边界。

大模型能做的：理解良率报告的自然语言描述，根据历史趋势总结规律，生成良率分析报告的文字部分，根据工艺参数变化趋势给出可能的原因方向。

大模型不能做的：精确计算良率数据（它不是计算器），查找实时的生产数据（它不是数据库），定位具体的缺陷根源（它缺乏专业的统计分析能力），保证分析结论的准确性（它可能幻觉）。

所以在良率分析场景中，大模型的正确角色是：理解用户的自然语言提问，调用工具获取真实的生产数据，基于真实数据生成可读的分析报告，但所有关键数据和结论都需要经过评估层的验证。

当日产物说明

《LLM 原理压缩笔记》

一份用你自己的语言写的大模型原理总结，核心要素包括：大模型的本质、训练三阶段（预训练、指令微调、RLHF）、推理过程、关键概念（Token、Context Window、Embedding、Attention、Temperature）的通俗解释。质量标准：非技术人员能看懂，技术人员挑不出明显错误。

《大模型 vs 数据库 vs 搜索引擎对比表》

一张对比表格，至少从工作原理、信息来源、输出确定性、可追溯性、适用场景、主要局限、在企业应用中的角色这七个维度进行对比。质量标准：对比维度全面，每个维度的描述准确简洁。

《大模型幻觉原因说明》

一份详细解释大模型幻觉的文档，包含：幻觉的定义、幻觉的几种表现形式（事实性幻觉、来源幻觉、能力幻觉、推理幻觉）、幻觉的深层原因（概率生成、训练数据问题、缺乏自我认知）、缓解幻觉的方法（RAG、结构化输出、评估层、人在循环）。质量标准：逻辑清晰，有具体例子，不只是理论。

《半导体场景中的 LLM 边界分析》

一份针对半导体良率分析场景的 LLM 能力边界分析文档。包含：大模型能做什么、不能做什么、正确的使用方式、需要配合的系统模块。质量标准：具体到半导体业务的实际场景，不是泛泛而谈。

常见误区与避坑

误区一：把大模型当成知识库

大模型不存储事实，它存储的是词语之间的统计关系。当你问它”张三的入职日期是哪天”，它不会去查数据库，而是根据训练时见过的大量文本来”猜”答案。如果训练数据中恰好有张三的信息，它可能猜对；如果没有，它就会编造一个看起来合理的日期。

误区二：认为模型越大越好

模型越大确实能力越强，但成本也越高、速度也越慢。在企业应用中，很多任务用小模型就能完成，不需要每次都调用最大的模型。合理的做法是根据任务复杂度选择合适的模型，简单任务用小模型，复杂任务用大模型。

误区三：忽视上下文窗口的实际可用空间

一个 128K 上下文窗口的模型，并不意味着你可以无脑塞 128K 的内容进去。系统提示需要占用空间、对话历史需要占用空间、模型输出也需要预留空间。实际可用的输入空间远小于标称的上下文窗口大小。而且塞得越多，模型对中间部分内容的处理能力越差。

误区四：认为幻觉可以完全消除

幻觉是大模型的固有特性，来源于它的概率生成机制。你可以通过 RAG、评估、人工审核等方式大幅降低幻觉率，但不可能完全消除。在设计企业应用时，应该假设模型一定会产生幻觉，然后设计系统来检测和处理幻觉，而不是幻想能彻底消灭它。

误区五：混淆预训练和微调的概念

预训练是在海量通用数据上训练，赋予模型基础能力。微调是在特定任务的数据上训练，赋予模型特定能力。两者解决的问题不同、成本不同、效果不同。企业应用通常不会自己预训练模型（太贵了），但可能会做微调或者更轻量的 Prompt 工程。

延伸思考

今天的 LLM 原理学习为后续内容打下了几个关键基础。

明天的 Prompt 工程学习，本质上是在理解了模型是概率生成系统之后，学习如何通过输入设计来影响输出的概率分布，让它更倾向于生成高质量的内容。

后天的结构化输出，是在理解了模型输出的不确定性之后，学习如何通过格式约束来控制输出的形态，使其能被程序处理。

本周后面的 RAG 学习，是在理解了幻觉问题之后，学习如何通过检索真实文档来给模型提供事实依据。

从工程角度看，理解 LLM 原理最重要的收获是一种”正确的心智模型”。当你遇到模型表现不佳时，你需要根据原理来诊断问题：是 Prompt 不够好（输入问题）？是上下文太长导致信息丢失（Context Window 问题）？是 Temperature 太高导致输出不稳定（采样问题）？是任务超出了模型能力范围（能力边界问题）？还是缺少外部知识导致幻觉（RAG 问题）？不同的诊断结果对应不同的解决方案。

从商业角度看，理解 LLM 的边界能帮你管理客户预期。很多客户对 AI 的期望过高，以为大模型什么都能做。你需要能清晰地告诉客户：大模型能做什么、不能做什么、需要配合什么系统才能在企业场景中可靠使用。这种诚实的沟通比过度承诺更能赢得长期信任。

自测问题

用一句话概括大语言模型的本质。为什么说它是”概率生成系统”而不是”知识库”？
Token 和”词”有什么区别？为什么大模型的计费按 Token 而不是按字数？
Context Window 是什么？如果一个模型的 Context Window 是 128K，实际可用的输入空间大约是多少？为什么不能全部用完？
Embedding 的作用是什么？它在 RAG 系统中扮演什么角色？
Attention 机制解决了什么问题？为什么说它是 Transformer 的核心创新？
预训练、指令微调、RLHF 三个阶段分别解决什么问题？缺少任何一个会怎样？
Temperature 参数如何影响模型输出？在什么场景下应该用高 Temperature，什么场景下用低 Temperature？
大模型幻觉的根源是什么？有哪几种表现形式？为什么说幻觉不可能完全消除？
大模型和数据库在信息处理上的根本区别是什么？在企业应用中各自应该扮演什么角色？
为什么企业应用必须使用 RAG、Tool Calling 和 Eval？如果缺少其中一个，会分别出现什么问题？

关键词

Token：模型处理文本的最小单位，计费和上下文长度的基本计量单位
Context Window：模型单次能处理的最大 Token 数量，决定了一次交互的信息容量
Embedding：把文本转换为数学向量的技术，使语义相似的文本在向量空间中距离相近
Attention：让模型理解词语之间关系的机制，Transformer 的核心组件
Transformer：大语言模型的底层架构，用 Attention 替代了传统的序列处理方式
Pretraining（预训练）：在海量文本上进行”预测下一个词”训练的阶段
Instruction Tuning（指令微调）：用指令-回答对训练模型学会听指令的阶段
RLHF：用人类反馈的强化学习来优化模型回答质量的训练方法
Inference（推理）：模型在实际使用时从输入到输出的生成过程
Temperature（温度）：控制模型输出随机性的参数，低值保守高值创造
Hallucination（幻觉）：模型编造看似合理但实际错误信息的现象
涌现能力：模型规模超过阈值后突然展现的新能力
Softmax：将模型输出转换为概率分布的函数

MindCarver Blog

MindCarver

探索

Day02-LLM原理压缩理解