Day 2:LLM 原理压缩理解
学习目标
今天的任务是建立对大语言模型(LLM)工作原理的准确认知。
注意,这里的”准确”不是指你需要理解 Transformer 的数学推导,而是指你需要建立正确的直觉——大模型到底是什么?它怎么工作?它能做什么?它不能做什么?为什么它会产生幻觉?为什么它不是数据库也不是搜索引擎?
很多人对大模型有两种极端的错误认知:一种是把它神化,觉得它无所不能;另一种是把它贬低,觉得它就是个高级补全工具。今天的任务就是帮你建立一种介于两者之间的、基于工程事实的理解。
完成今天的学习后,你应该能用自己的话解释大模型从输入到输出的完整流程,能讲清幻觉的来源,能说明为什么企业应用必须给大模型加约束。
核心概念
一、什么是大语言模型
大语言模型的本质是一个文字接龙机器。
这句话听起来简单,但它准确描述了大模型的工作方式。你给它一段文字,它预测下一个最可能出现的词。然后把你给的文字加上它预测的词,再预测下一个词。如此循环,直到生成一个完整的回答。
GPT 的全称是 Generative Pre-trained Transformer,翻译过来就是”生成式预训练 Transformer”。Generative 说的是它的工作方式——生成文本。Pre-trained 说的是它的训练阶段——在海量数据上预先训练。Transformer 说的是它的底层架构。
为什么叫”大”语言模型?“大”指的是两个东西:参数量大和数据量大。GPT-3 有 1750 亿个参数,GPT-4 的参数量虽然官方没有公布,但据估计在万亿级别。训练数据包括互联网上的网页、书籍、论文、代码等,总量达到数万亿个 Token。
但大模型的”大”不仅仅意味着规模的堆砌。规模的增大带来了一个质变——涌现能力。当模型参数量超过某个阈值后,它会突然展现出一些小模型不具备的能力,比如复杂的逻辑推理、多语言理解、代码生成等。这种”量变引起质变”的现象,是大模型研究中最令人兴奋的发现之一。
理解大模型的另一个关键点是:它是一个概率系统,不是一个知识库。它不存储事实,它存储的是词语之间的统计关系。当你问”中国的首都是哪里”,模型并不是从某个知识库里查找答案,而是根据训练时见过的大量文本,知道”中国”和”首都”后面最可能跟着的词是”北京”。
这个区别极其重要。存储事实的系统要么知道要么不知道,不存在中间状态。但概率系统不同,它可能很确定(99% 的概率下一个词是”北京”),也可能不太确定(60% 的概率)。而且当训练数据中存在矛盾信息时,模型可能学到错误的统计关系。
二、Token
Token 是大模型处理文本的基本单位。
很多人以为 Token 就是”词”,这个理解不完全准确。Token 是模型自己定义的一种文本切分方式,介于字符和词之间。在英文中,一个常见词可能是一个 Token(比如”hello”),但一个不常见的词可能被拆成多个 Token(比如”synergy”可能被拆成”syn”和”ergy”两个 Token)。在中文中,一个汉字通常是一个 Token,但有些常见词组可能被合并为一个 Token。
Token 的存在是为了平衡效率和灵活性。如果把文本按字符切分,序列会很长,模型处理效率低。如果按词切分,词表会太大,遇到新词就没办法处理。Token 是一种折中方案。
Token 与你的实际工作有直接关系,因为大模型的计费是按 Token 来的。GPT-4 的输入大约每 1000 个 Token 收费 0.03 美元,输出每 1000 个 Token 收费 0.06 美元。一个汉字大约是 1-2 个 Token,一段 1000 字的中文大约是 1500-2000 个 Token。如果你做企业应用,每天有几千次调用,Token 费用就是一笔不小的开支。
Token 还与模型的上下文窗口有关。上下文窗口是模型单次能处理的最大 Token 数量。如果你的输入加上期望的输出超过了上下文窗口,模型就无法正常工作。所以在设计 AI 应用时,你需要精打细算地管理 Token 的使用。
三、Context Window(上下文窗口)
上下文窗口是大模型单次能处理的最大 Token 数量。
这个概念可以类比为人的短期记忆容量。你在一次对话中能记住的信息量是有限的,模型也一样。早期模型的上下文窗口只有几千个 Token,GPT-3 是 4K,GPT-4 Turbo 提升到了 128K,Claude 3 更是达到了 200K,一些最新模型甚至支持 1M 以上的上下文。
上下文窗口的大小直接影响你能用模型做什么。4K 的窗口意味着你一次只能输入大约 3000 字的中文——差不多一篇短文的长度。128K 的窗口则可以放下一整本书。200K 可以放下几本书。
但上下文窗口大不代表模型能完美利用所有上下文。研究表明,模型对上下文开头和结尾的信息处理得比较好,对中间部分的信息容易”遗忘”。这被称为”中间位置遗忘效应”。所以当你把大量文档塞进上下文窗口时,放在中间位置的重要信息可能被模型忽略。
在实际应用中,上下文窗口的管理是一个重要的工程问题。你需要决定:多少空间留给系统提示(System Prompt),多少空间留给对话历史,多少空间留给检索到的知识,多少空间留给模型的输出。这些空间的分配策略直接影响应用的效果和成本。
四、Embedding(向量化)
Embedding 是把文本转换成数学向量的过程。
什么是向量?简单说,向量就是一组数字。比如一个 1536 维的向量就是 1536 个数字组成的列表。Embedding 的作用是把文本的语义信息编码到这组数字里。
关键是:语义相近的文本,转换后的向量在数学空间里也相近。比如”苹果公司发布了新款 iPhone”和”Apple 发布了最新的智能手机”这两句话用词不同,但意思相近,所以它们转换后的向量距离很近。而”苹果公司发布了新款 iPhone”和”今天天气不错”的向量距离就很远。
这个特性是 RAG 的基础。当用户提问时,系统把问题转成向量,然后在向量数据库里找到语义最接近的文档片段,把这些片段作为上下文传给大模型,让模型基于这些真实文档来回答问题。没有 Embedding,RAG 就无法实现语义检索,只能靠关键词匹配,效果会大打折扣。
Embedding 模型是专门训练用来做向量化的模型,比如 OpenAI 的 text-embedding-ada-002、BGE 系列、E5 系列等。不同的 Embedding 模型在向量维度、语义捕捉能力、多语言支持、处理速度上各有差异。选择合适的 Embedding 模型是 RAG 系统设计中的关键决策之一。
五、Attention(注意力机制)
Attention 机制是 Transformer 架构的核心创新,也是大模型能力的基础。
Attention 解决的核心问题是:在处理一段文本时,模型怎么知道哪些词与其他词关系最密切?
举个例子。在句子”银行门口有一排柳树,河边的银行也很漂亮”中,“银行”这个词出现了两次。第一个”银行”指的是金融机构,第二个”银行”可能指的是河岸。人能通过上下文区分两个”银行”的含义,Attention 机制让模型也能做到这一点。
当模型处理第一个”银行”时,Attention 机制会让它重点关注”门口”和”柳树”这些词,从而推断出这是金融机构。处理第二个”银行”时,会重点关注”河边”,推断出这是河岸的意思。
更准确地说,Attention 机制为每个词计算一组权重,表示它应该对上下文中的每个其他词投入多少”注意力”。权重高的词对当前词的理解贡献大,权重低的词贡献小。这种机制让模型能够捕捉文本中的长距离依赖关系——一个句子开头的词可能和结尾的词有强烈的关联,Attention 能发现这种关联。
你不需要理解 Attention 的数学细节,但你需要知道它为什么重要:它是大模型理解上下文的核心能力。没有 Attention,模型就只能逐词处理文本,无法理解词语之间的关系。有了 Attention,模型就能看到文本的全貌,理解每个词在上下文中的准确含义。
六、Transformer
Transformer 是大语言模型的底层架构,2017 年由 Google 团队在论文《Attention Is All You Need》中提出。
在 Transformer 之前,处理序列数据(文本、语音等)的主流方法是 RNN(循环神经网络)。RNN 的问题是它必须按顺序处理文本——先处理第一个词,再处理第二个,依次进行。这种顺序处理有两个致命缺陷:一是无法并行计算,训练速度慢;二是处理长序列时会”遗忘”前面的内容。
Transformer 彻底改变了这一点。它用 Attention 机制替代了顺序处理,可以同时看到文本中的所有词,而且可以并行计算。这带来了两个巨大优势:训练速度快得多(可以利用 GPU 的并行计算能力),而且能更好地处理长距离依赖关系。
Transformer 的核心组件包括:
编码器(Encoder):负责理解输入文本,提取语义信息。BERT 系列模型主要使用编码器结构。
解码器(Decoder):负责生成输出文本,逐个 Token 地预测。GPT 系列模型主要使用解码器结构。
编码器-解码器(Encoder-Decoder):同时使用两者,编码器理解输入,解码器生成输出。原始 Transformer 和 T5 等模型使用这种结构。
你目前接触的大部分大语言模型(GPT 系列、Claude、LLaMA 等)都是基于 Transformer 解码器的架构。
七、Pretraining(预训练)
预训练是大模型获取知识和能力的第一个阶段。
在预训练阶段,模型被喂入海量的文本数据(通常来自互联网),任务是预测下一个 Token。模型通过反复做这个”文字接龙”任务,逐渐学会了语言的语法、语义、常识知识、推理能力等。
预训练的代价极其高昂。GPT-3 的预训练据说花费了超过 400 万美元的算力成本,GPT-4 更是估计在 1 亿美元以上。训练时间通常需要几周到几个月,使用数千块高端 GPU。
预训练阶段决定了模型的”能力天花板”。一个预训练充分的模型具备广泛的世界知识、语言理解能力和推理能力。但预训练也有一些局限:
知识有截止日期。模型只学到了训练数据中包含的信息,训练之后发生的事情它一无所知。
知识可能不准确。训练数据来自互联网,包含大量错误信息和矛盾信息。模型会从这些数据中学到错误的知识。
没有任务指向性。预训练的模型只学会了”接话”,不知道怎么按照人的指令行事。你给它一段话,它只会继续往下续写,而不是按照你的要求回答问题。
八、Instruction Tuning(指令微调)
指令微调是让预训练模型学会”听指令”的关键步骤。
预训练后的模型就像一个博览群书但不会听话的人——他什么都知道,但不知道怎么按照你的要求回答问题。你问他”中国的首都是哪里”,他可能接着往下写”中国是世界上人口最多的国家之一,位于亚洲东部…”,而不是直接回答”北京”。
指令微调通过一组精心设计的”指令-回答”对来训练模型,让它学会在收到指令时,按照指令的要求给出回答。这些训练数据通常包含几十万到几百万条人工标注的对话。
指令微调后的模型行为发生了质变。它不再只是续写文本,而是能理解用户的意图,按照指令的格式和要求给出回答。你让它分析行业,它就分析行业;你让它写代码,它就写代码;你让它总结文章,它就总结文章。
九、RLHF(基于人类反馈的强化学习)
RLHF 是进一步提升模型回答质量的训练方法。
指令微调让模型学会了听指令,但模型的回答可能不够好——可能太啰嗦、可能有偏见、可能不够准确。RLHF 的目的是让模型的回答更符合人类的偏好。
RLHF 的工作流程大致是这样:让模型对同一个问题生成多个回答,人类标注员对这些回答进行排序(哪个最好、哪个次之、哪个最差),用这些排序数据训练一个奖励模型,然后用这个奖励模型通过强化学习进一步优化大模型。
RLHF 让模型的回答变得更安全(减少有害内容)、更有帮助(直接回答问题而不是绕弯子)、更符合人类的表达习惯。但它也有一些争议——有人认为 RLHF 让模型变得过于”政治正确”,在某些问题上回避而不是直接回答。
十、Inference(推理/生成)
Inference 是模型在实际使用时的过程——你给模型一段输入,它生成一段输出。
推理过程是逐 Token 进行的。每生成一个 Token,模型都会考虑整个上下文(输入加上已生成的 Token),预测下一个最可能的 Token。这意味着生成长文本需要多次前向传播,生成 1000 个 Token 就需要 1000 次计算。
这也解释了为什么长文本生成比短文本慢得多,为什么流式输出(逐字显示)比一次性返回用户体验更好。流式输出不需要等全部生成完,而是每生成一个 Token 就发送给用户。
推理过程的计算成本也很高。虽然不像预训练那样需要大量 GPU,但每次推理都需要一定的计算资源和时间。这也是为什么调用大模型 API 需要付费——算力和带宽都是有成本的。
十一、Temperature(温度)
Temperature 是控制模型输出随机性的参数,取值范围通常是 0 到 2。
Temperature 越低,模型越倾向于选择概率最高的 Token,输出越确定、越保守。Temperature 为 0 时,模型永远选择概率最高的 Token,每次输出都一样(如果其他参数也固定的话)。
Temperature 越高,模型越倾向于选择概率较低的 Token,输出越随机、越有创造性。高 Temperature 下,模型可能给出意想不到的回答——有时候是好的”有创意”,有时候是坏的”不靠谱”。
实际应用中的 Temperature 选择:
精确任务(数学计算、数据分析、事实问答)用低 Temperature(0-0.3),你需要准确稳定的输出。
平衡任务(文本翻译、总结、分类)用中等 Temperature(0.3-0.7),既准确又有一定的灵活性。
创意任务(写作、头脑风暴、角色扮演)用高 Temperature(0.7-1.2),鼓励多样性和创造性。
企业应用中,Temperature 的选择需要根据具体场景决定。同一个系统,不同功能模块可能使用不同的 Temperature。
十二、Hallucination(幻觉)
幻觉是大模型编造看似合理但实际错误的信息的现象。
幻觉是当前大模型最严重的问题之一,也是企业应用落地最大的障碍。
幻觉有几种表现形式:
事实性幻觉:模型编造不存在的事实。比如你问某个冷门历史事件的细节,模型可能编造一个看起来很真实但完全是虚构的故事。
来源幻觉:模型引用不存在的论文、书籍或网址。它会一本正经地说”根据 Smith 等人 2023 年在 Nature 上发表的论文…”,但这个论文根本不存在。
能力幻觉:模型声称自己能做做不到的事。比如它可能说”我已经帮你查了最新的数据”,但实际上它根本没有联网,所有数据都是编造的。
推理幻觉:模型在逻辑推理过程中出错,但错误的过程看起来很合理。比如做数学题时步骤看起来没问题,但最终答案是错的。
幻觉的根源在于大模型的工作原理——它是概率生成系统,不是知识检索系统。它根据训练数据中的统计规律来生成文本,而不是去事实库中查找答案。当模型对某个问题没有足够的训练数据支撑时,它不会说”我不知道”,而是根据概率继续生成,结果就是编造内容。
理解了幻觉的来源,你就能理解为什么企业应用必须给大模型加约束:用 RAG 限定回答的知识来源,用结构化输出控制格式,用评估层检查准确性,用安全层过滤高风险内容。不加约束的大模型在企业场景中是不可用的。
十三、为什么大模型不是数据库
大模型和数据库在信息处理上有根本性的区别。
数据库是确定性存储。你存入什么,就能精确取出什么。查询”张三的入职日期”,数据库返回的永远是那个精确的日期。数据库不会编造数据,不会记错,不会因为查询方式不同而给出不同答案。
大模型是概率生成。它不存储具体的事实,而是存储词语之间的统计关系。问同样的问题,可能得到不同的答案。问法的微小变化可能导致完全不同的输出。
在企业应用中,这意味着你不能把大模型当作数据查询工具。如果用户需要精确的数据(比如某笔订单的金额、某个客户的联系方式),应该让系统去查数据库,而不是让大模型凭”记忆”回答。大模型的角色是理解和组织信息,不是存储和检索数据。
十四、为什么大模型不是搜索引擎
搜索引擎和大模型都帮你获取信息,但工作方式完全不同。
搜索引擎是检索系统。它维护一个网页索引,当你搜索时,它从索引中找到最相关的网页,按相关性排序返回给你。你看到的是真实的网页链接,可以自己去验证信息。
大模型是生成系统。它不是去搜索某个信息源,而是根据自己的”知识”生成回答。它不会告诉你信息的来源,你也没办法验证它说的是不是真的。
搜索引擎的优点是信息可追溯、来源明确;缺点是返回的是网页链接而不是直接答案,用户需要自己筛选和阅读。大模型的优点是直接给出答案,使用体验好;缺点是答案可能不准确,而且无法溯源。
在企业应用中,这两者常常结合使用。大模型负责理解用户意图和组织答案,搜索引擎(或更一般地,检索系统)负责提供真实的信息来源。这就是 RAG 架构的思路。
十五、为什么企业应用需要 RAG / Tool Calling / Eval
把前面的知识串起来,就能理解为什么光靠大模型本身做不了企业应用。
企业需要准确的信息。大模型会幻觉,会编造。RAG 通过给模型提供真实的文档作为参考,让回答基于事实而不是模型的”猜测”。
企业需要执行动作。大模型只能生成文字,不能查数据库、不能发邮件、不能调系统。Tool Calling 让模型能够调用外部工具来执行实际操作。
企业需要可控的质量。大模型的输出不确定,同样的输入可能给出不同质量的回答。Eval 体系通过自动化评估和人工审核来持续监控和提升输出质量。
这三者——RAG、Tool Calling、Eval——是让大模型从”好玩的聊天工具”变成”可靠的业务系统”的关键基础设施。缺少任何一个,企业应用都会面临严重的可用性和可靠性问题。
概念关系图
大语言模型工作原理全景
训练阶段
+-------------------+ +-------------------+ +-------------------+
| Pretraining | --> | Instruction | --> | RLHF |
| 预训练 | | Tuning 指令微调 | | 人类反馈强化学习 |
| (海量文本接龙) | | (学习听指令) | | (对齐人类偏好) |
+-------------------+ +-------------------+ +-------------------+
| | |
v v v
基础语言能力 任务执行能力 回答质量和安全性
推理阶段
+----------+ +----------+ +----------+ +----------+
| 用户输入 | -> | Token化 | -> | | -> | Token |
| (文字) | | | | | | 逐个生成 |
+----------+ +----------+ | Trans- | +----------+
| former | |
+----------+ +----------+ | + Atten-| +----------+
| Context | | Embed- | -> | tion | | 输出文本 |
| Window | | ding | | | +----------+
| (上下文) | | (向量化) | | |
+----------+ +----------+ +----------+
幻觉来源
+------------------------------------------------------------------+
| 模型 = 概率生成系统,不是知识库 |
| |
| 输入 -> 统计规律 -> 概率最高的下一个词 -> 统计规律 -> ... -> 输出 |
| |
| 当训练数据不足或矛盾时: |
| 高概率词 != 正确事实 |
| 看起来合理 != 实际正确 |
+------------------------------------------------------------------+
企业应用三件套
+----------+ +-------------+ +----------+
| RAG | | Tool | | Eval |
| 供给事实 | | Calling | | 质量保证 |
| | | 执行动作 | | |
+----------+ +-------------+ +----------+
| | |
+-------------------+------------------+
|
+------+------+
| 可靠的 |
| 企业AI系统 |
+-------------+
实战分析
用自己的话解释大模型工作流程
这个任务的目的是检验你是否真正理解了今天的内容,而不是死记硬背。
建议的讲解框架:从用户输入开始,讲述文本如何被 Token 化,如何经过 Transformer 的多层处理,如何在 Attention 机制的作用下理解上下文,如何逐 Token 生成输出,如何受到 Temperature 的影响。然后解释训练阶段——预训练如何获得语言能力,指令微调如何学会听指令,RLHF 如何对齐人类偏好。
关键是要把”概率生成”这个核心特征讲透。如果你能把”大模型是一个根据上下文概率预测下一个词的系统”这个本质解释清楚,听者就能理解为什么模型会产生幻觉、为什么需要 RAG、为什么需要结构化输出。
画 LLM 从输入到输出的流程图
这张图应该包含以下环节:用户输入原始文本、文本被 Tokenizer 切分为 Token 序列、Token 被转换为向量(Embedding)、向量经过 Transformer 多层处理(每层包含 Attention 和前馈网络)、最后一个 Token 的输出经过 Softmax 得到概率分布、根据概率分布和 Temperature 采样出下一个 Token、将新 Token 加入序列、重复直到生成结束符或达到最大长度。
画图的过程能帮你发现理解上的盲点。如果某个环节你画不出来或者画得很模糊,说明那个环节你没完全搞懂。
对比数据库、搜索引擎、大模型
建议用表格的形式对比,维度包括:工作原理、信息来源、输出确定性、可追溯性、适用场景、主要局限。
数据库:确定性存储和检索,信息来自结构化存储,输出完全确定,可精确追溯,适合精确查询,局限是只能查已有数据。
搜索引擎:索引和检索,信息来自互联网,返回网页链接而非答案,可追溯,适合信息查找,局限是需要用户自己筛选。
大模型:概率生成,信息来自训练数据的统计规律,输出不确定,不可追溯,适合理解和生成文本,局限是会幻觉。
用半导体良率分析场景解释大模型边界
半导体良率分析是一个典型的需要精确数据的场景。这个场景能很好地展示大模型的边界。
大模型能做的:理解良率报告的自然语言描述,根据历史趋势总结规律,生成良率分析报告的文字部分,根据工艺参数变化趋势给出可能的原因方向。
大模型不能做的:精确计算良率数据(它不是计算器),查找实时的生产数据(它不是数据库),定位具体的缺陷根源(它缺乏专业的统计分析能力),保证分析结论的准确性(它可能幻觉)。
所以在良率分析场景中,大模型的正确角色是:理解用户的自然语言提问,调用工具获取真实的生产数据,基于真实数据生成可读的分析报告,但所有关键数据和结论都需要经过评估层的验证。
当日产物说明
《LLM 原理压缩笔记》
一份用你自己的语言写的大模型原理总结,核心要素包括:大模型的本质、训练三阶段(预训练、指令微调、RLHF)、推理过程、关键概念(Token、Context Window、Embedding、Attention、Temperature)的通俗解释。质量标准:非技术人员能看懂,技术人员挑不出明显错误。
《大模型 vs 数据库 vs 搜索引擎对比表》
一张对比表格,至少从工作原理、信息来源、输出确定性、可追溯性、适用场景、主要局限、在企业应用中的角色这七个维度进行对比。质量标准:对比维度全面,每个维度的描述准确简洁。
《大模型幻觉原因说明》
一份详细解释大模型幻觉的文档,包含:幻觉的定义、幻觉的几种表现形式(事实性幻觉、来源幻觉、能力幻觉、推理幻觉)、幻觉的深层原因(概率生成、训练数据问题、缺乏自我认知)、缓解幻觉的方法(RAG、结构化输出、评估层、人在循环)。质量标准:逻辑清晰,有具体例子,不只是理论。
《半导体场景中的 LLM 边界分析》
一份针对半导体良率分析场景的 LLM 能力边界分析文档。包含:大模型能做什么、不能做什么、正确的使用方式、需要配合的系统模块。质量标准:具体到半导体业务的实际场景,不是泛泛而谈。
常见误区与避坑
误区一:把大模型当成知识库
大模型不存储事实,它存储的是词语之间的统计关系。当你问它”张三的入职日期是哪天”,它不会去查数据库,而是根据训练时见过的大量文本来”猜”答案。如果训练数据中恰好有张三的信息,它可能猜对;如果没有,它就会编造一个看起来合理的日期。
误区二:认为模型越大越好
模型越大确实能力越强,但成本也越高、速度也越慢。在企业应用中,很多任务用小模型就能完成,不需要每次都调用最大的模型。合理的做法是根据任务复杂度选择合适的模型,简单任务用小模型,复杂任务用大模型。
误区三:忽视上下文窗口的实际可用空间
一个 128K 上下文窗口的模型,并不意味着你可以无脑塞 128K 的内容进去。系统提示需要占用空间、对话历史需要占用空间、模型输出也需要预留空间。实际可用的输入空间远小于标称的上下文窗口大小。而且塞得越多,模型对中间部分内容的处理能力越差。
误区四:认为幻觉可以完全消除
幻觉是大模型的固有特性,来源于它的概率生成机制。你可以通过 RAG、评估、人工审核等方式大幅降低幻觉率,但不可能完全消除。在设计企业应用时,应该假设模型一定会产生幻觉,然后设计系统来检测和处理幻觉,而不是幻想能彻底消灭它。
误区五:混淆预训练和微调的概念
预训练是在海量通用数据上训练,赋予模型基础能力。微调是在特定任务的数据上训练,赋予模型特定能力。两者解决的问题不同、成本不同、效果不同。企业应用通常不会自己预训练模型(太贵了),但可能会做微调或者更轻量的 Prompt 工程。
延伸思考
今天的 LLM 原理学习为后续内容打下了几个关键基础。
明天的 Prompt 工程学习,本质上是在理解了模型是概率生成系统之后,学习如何通过输入设计来影响输出的概率分布,让它更倾向于生成高质量的内容。
后天的结构化输出,是在理解了模型输出的不确定性之后,学习如何通过格式约束来控制输出的形态,使其能被程序处理。
本周后面的 RAG 学习,是在理解了幻觉问题之后,学习如何通过检索真实文档来给模型提供事实依据。
从工程角度看,理解 LLM 原理最重要的收获是一种”正确的心智模型”。当你遇到模型表现不佳时,你需要根据原理来诊断问题:是 Prompt 不够好(输入问题)?是上下文太长导致信息丢失(Context Window 问题)?是 Temperature 太高导致输出不稳定(采样问题)?是任务超出了模型能力范围(能力边界问题)?还是缺少外部知识导致幻觉(RAG 问题)?不同的诊断结果对应不同的解决方案。
从商业角度看,理解 LLM 的边界能帮你管理客户预期。很多客户对 AI 的期望过高,以为大模型什么都能做。你需要能清晰地告诉客户:大模型能做什么、不能做什么、需要配合什么系统才能在企业场景中可靠使用。这种诚实的沟通比过度承诺更能赢得长期信任。
自测问题
-
用一句话概括大语言模型的本质。为什么说它是”概率生成系统”而不是”知识库”?
-
Token 和”词”有什么区别?为什么大模型的计费按 Token 而不是按字数?
-
Context Window 是什么?如果一个模型的 Context Window 是 128K,实际可用的输入空间大约是多少?为什么不能全部用完?
-
Embedding 的作用是什么?它在 RAG 系统中扮演什么角色?
-
Attention 机制解决了什么问题?为什么说它是 Transformer 的核心创新?
-
预训练、指令微调、RLHF 三个阶段分别解决什么问题?缺少任何一个会怎样?
-
Temperature 参数如何影响模型输出?在什么场景下应该用高 Temperature,什么场景下用低 Temperature?
-
大模型幻觉的根源是什么?有哪几种表现形式?为什么说幻觉不可能完全消除?
-
大模型和数据库在信息处理上的根本区别是什么?在企业应用中各自应该扮演什么角色?
-
为什么企业应用必须使用 RAG、Tool Calling 和 Eval?如果缺少其中一个,会分别出现什么问题?
关键词
- Token:模型处理文本的最小单位,计费和上下文长度的基本计量单位
- Context Window:模型单次能处理的最大 Token 数量,决定了一次交互的信息容量
- Embedding:把文本转换为数学向量的技术,使语义相似的文本在向量空间中距离相近
- Attention:让模型理解词语之间关系的机制,Transformer 的核心组件
- Transformer:大语言模型的底层架构,用 Attention 替代了传统的序列处理方式
- Pretraining(预训练):在海量文本上进行”预测下一个词”训练的阶段
- Instruction Tuning(指令微调):用指令-回答对训练模型学会听指令的阶段
- RLHF:用人类反馈的强化学习来优化模型回答质量的训练方法
- Inference(推理):模型在实际使用时从输入到输出的生成过程
- Temperature(温度):控制模型输出随机性的参数,低值保守高值创造
- Hallucination(幻觉):模型编造看似合理但实际错误信息的现象
- 涌现能力:模型规模超过阈值后突然展现的新能力
- Softmax:将模型输出转换为概率分布的函数