Day 32：成本与性能优化

学习目标

今天我们要深入探讨一个在任何AI项目中都无法回避的话题——成本与性能优化。你可能已经拥有了一个功能完备的AI Agent系统，但在实际部署和运营中，你会发现成本问题像一把悬在头顶的达摩克利斯之剑。每一次大模型调用都在消耗Token，每一次向量检索都在消耗计算资源，而如果你的系统每天要处理数百甚至数千个查询，这些微小的单次成本会迅速累积成一个令人心惊的数字。今天你要学会如何精确测量系统成本，如何通过多种策略在不牺牲核心质量的前提下大幅降低成本，以及如何设计灵活的模式切换机制来适应不同的业务场景。

一、Token成本——理解大模型调用的经济账

Token成本是AI系统运营中最大的一项支出，理解它的计费机制是优化成本的第一步。大多数大模型服务商采用按Token计费的模式，而Token的计数方式与我们日常理解的”字数”有显著差异。在中文语境下，一个汉字通常会被编码为1到3个Token，这意味着同样长度的中文文本比英文文本消耗更多的Token。一个看起来不长的500字中文回答，实际可能消耗1000到1500个Token。

Token成本由两部分组成：输入Token和输出Token。输入Token包括你发送的Prompt、系统指令、检索到的文档片段、对话历史等。输出Token就是模型生成的回答。两者的单价通常不同，输出Token的单价往往是输入Token的2到5倍。这意味着同样消耗1000个Token，用来生成回答比用来处理输入贵得多。

在一个典型的RAG系统中，Token消耗的分布大致如下：系统Prompt约占10%到15%，检索到的文档内容约占40%到60%，对话历史约占10%到20%，最终生成的回答约占15%到25%。从这个分布可以看出，检索文档内容是Token消耗的大头。如果你的检索策略不够精准，返回了大量与问题无关的文档片段，这些无用的内容不仅浪费了Token，还可能干扰模型的生成质量。

在半导体制造的场景中，这个问题尤为突出。一份工艺规范文档可能有数百页，如果你的检索策略每次都返回完整章节，Token消耗会非常惊人。比如一个工程师问”蚀刻工艺的标准温度是多少”，系统检索返回了整个蚀刻工艺章节——可能包含数千个Token——而实际上回答这个问题只需要其中一句话。这种粒度过粗的检索策略是Token浪费的主要来源之一。

理解了Token成本的构成，你就可以有针对性地进行优化。优化的核心思路是减少”无用的Token”——那些被发送给模型但对生成高质量回答没有贡献的Token。具体来说，你可以优化检索的精度和粒度、压缩系统Prompt、管理对话历史的长度、以及控制输出长度。我们接下来会详细讨论这些策略。

还有一个容易被忽视的Token成本来源是重试和纠错。如果你的系统设计不够健壮，经常因为格式错误或内容不符合要求而需要重新生成，这些重试消耗的Token也是实实在在的成本。有时候优化系统的一次成功率比优化单次调用的成本更有效。

二、调用次数成本——频率与批量的经济学

除了单次调用的Token成本，调用次数本身也是一项重要的成本因素。很多模型服务商除了按Token计费外，还会有调用频率的限制和超额费用。即使没有显式的按次计费，频繁的API调用也会带来延迟增加、服务降级等间接成本。

在一个复杂的Agent系统中，一个用户查询可能触发多次模型调用。比如第一步让模型分析用户意图，第二步根据意图生成检索查询，第三步对检索结果进行重排序，第四步基于检索文档生成回答，第五步对回答进行质量检查。五个步骤，五次模型调用，每一次都在消耗Token和增加延迟。如果平均每个用户查询需要3到5次模型调用，那么系统的实际成本就是单次回答成本的3到5倍。

调用次数优化的第一个思路是合并调用。你能否把多个步骤合并为一次调用？比如把意图分析和检索查询生成合并为一个步骤，让模型同时输出意图分类和检索关键词。这种合并需要精心设计Prompt，让模型能够在一个输出中同时完成多个任务。合并调用的好处不仅是减少成本，还能减少延迟——少一次网络往返就意味着更快的响应速度。

第二个思路是条件性调用。不是每个查询都需要走完所有步骤。对于简单的查询（比如”今天的日期是什么”），模型可以直接回答，不需要经过检索、重排序等步骤。你可以在系统入口设置一个分类器，根据查询的复杂度决定走哪条处理路径。这种基于复杂度的路由策略可以显著降低简单查询的成本，而复杂查询仍然走完整的处理流程。

第三个思路是批量处理。如果你的系统需要处理大量独立的查询（比如批量生成报告），可以考虑使用批量API而不是实时API。大多数服务商提供的批量API虽然延迟更高，但单价可能是实时API的50%甚至更低。对于不需要实时响应的场景，这是一种非常有效的成本节约方式。

在制造业的实际应用中，批量处理的场景非常普遍。比如每天凌晨自动生成前一天的产线异常分析报告、每周生成良率趋势分析、每月生成设备维护建议等。这些任务都不需要实时响应，完全可以使用批量API来处理，成本可能只有实时处理的十分之一。

调用次数优化还需要考虑缓存的效果。如果多个用户问了类似的问题，或者同一个用户在不同时间反复问同一个问题，你是否能够复用之前的调用结果？这就引出了我们后面要讨论的缓存策略。

三、Embedding成本与Rerank成本——检索环节的隐性开销

在讨论AI系统成本时，大多数人关注的焦点是生成模型的调用成本，而忽略了检索环节的两个重要成本来源：Embedding计算成本和Rerank模型调用成本。

Embedding是将文本转换为向量表示的过程，用于在向量数据库中进行相似度搜索。Embedding成本通常按输入Token量计费，虽然单价远低于生成模型，但在大规模场景下仍然是一笔可观的支出。更重要的是，Embedding计算不仅有直接的API成本，还有间接的时间成本。对于大规模文档库，重新计算Embedding可能需要数小时甚至数天。

Embedding成本的优化策略有几个方向。第一是增量更新而非全量重建。当文档库有新增内容时，只计算新增部分的Embedding，而不是重新计算整个文档库。第二是选择合适的Embedding模型。不同的Embedding模型在性能和成本之间有不同的平衡点。对于内部知识库这种场景，一个中等规模的Embedding模型可能就够了，不需要追求最大最贵的模型。第三是控制文档切片的粒度。过小的切片会增加Embedding计算的总量，过大的切片会降低检索精度。找到合适的切片大小是控制Embedding成本的关键。

Rerank成本是另一个容易被低估的支出项。Rerank模型的作用是对初步检索结果进行精细排序，通常能显著提升检索质量。但Rerank模型的调用成本不容忽视——它需要对每对”查询-文档”进行一次计算，如果你从向量数据库中检索了20个候选文档，Rerank就需要进行20次计算。

在一个实际的生产系统中，Rerank的调用频率可能远高于你的预期。假设系统每天处理500个查询，每个查询检索20个候选文档进行Rerank，那就是每天10000次Rerank调用。如果每次Rerank调用的成本是0.001美元，一天的Rerank成本就是10美元，一个月就是300美元。对于一个小团队来说，这是一笔不可忽视的开销。

Rerank成本的优化可以从几个角度入手。第一是减少候选文档数量。把20个候选减少到10个，Rerank成本直接减半。但这里有一个权衡——减少候选数量可能会降低最终检索到最相关文档的概率。第二是条件性Rerank。对于简单查询，初步检索的结果可能已经足够好，不需要Rerank。你可以设置一个相关性阈值，只有当初步检索的最高分低于阈值时才触发Rerank。第三是使用更轻量的Rerank模型，虽然精度可能略低，但成本也相应降低。

在实际的工程实践中，Embedding和Rerank的成本优化需要与检索质量做联合优化。你不能为了降低成本而牺牲太多检索质量，因为检索质量下降会导致生成质量下降，进而可能需要更多的重试和人工干预，最终的总成本反而可能上升。优化的目标是在满足质量要求的前提下找到成本最低的配置组合。

四、模型路由——不同任务用不同模型

模型路由是成本优化中最具策略性的手段之一。核心思想很简单：不是所有任务都需要最强大（也最贵）的模型来完成。简单的任务用便宜的模型，复杂的任务才用昂贵的模型。通过智能的任务分级和模型匹配，你可以在整体上大幅降低成本，同时在关键场景上保持高质量。

模型路由的设计需要解决两个问题：第一，你有哪些可选的模型？第二，如何判断一个任务应该路由到哪个模型？

关于第一个问题，通常的模型层级是这样的：顶级模型（如GPT-4级别的模型）能力强但成本高，适合处理复杂推理、长文档综合分析、以及对准确性要求极高的任务。中级模型（如GPT-3.5或Claude Sonnet级别）在大多数场景下表现良好，成本约为顶级模型的十分之一，适合处理标准的问答和内容生成任务。轻量模型（如Haiku或小型开源模型）成本极低，适合处理简单分类、格式转换、提取关键信息等结构化任务。

关于第二个问题，路由策略可以基于多种信号。最简单的是基于任务类型的静态路由——意图分类用轻量模型，检索查询生成用中级模型，最终回答生成用顶级模型。更精细的是基于内容复杂度的动态路由——分析用户问题的复杂度，如果问题只涉及简单的事实查询，用中级模型就够了；如果问题需要跨多个文档的综合推理，才调用顶级模型。

在半导体制造的AI助手中，你可以设计这样的路由策略。当工程师问”设备X的操作温度范围是多少”这种直接的事实查询时，使用中级模型就完全可以给出准确的回答——因为答案直接存在于检索到的文档中，不需要复杂的推理。但当工程师问”最近三个月的良率波动与哪些工艺参数变化相关”这种需要综合分析多个数据源的问题时，就需要顶级模型来处理。

动态路由的实现可以在系统的多个环节进行。最常见的是在意图分析阶段就做出路由决策。系统首先用一个轻量模型分析用户查询的复杂度和类型，然后根据分析结果决定后续步骤使用哪个级别的模型。这种做法的额外开销很小（只是一个轻量模型的调用），但可能带来的成本节约是巨大的——如果70%的查询可以用中级模型处理，你的平均查询成本可以降低60%以上。

模型路由还需要考虑失败回退机制。如果中级模型给出的回答质量不达标（比如自动评分低于某个阈值），系统应该能够自动升级到顶级模型重新处理。这种”先尝试低成本方案，不行再升级”的策略在保证质量的同时最大化了成本效率。

五、缓存策略——避免重复计算的智慧

缓存是计算机科学中最基础也最有效的性能优化手段，在AI系统中同样适用。当一个AI系统在线上运行一段时间后，你会发现很多查询具有高度的重复性或相似性。如果每次都完整处理这些相似的查询，不仅浪费计算资源，还增加了响应延迟。

缓存策略在AI系统中可以在多个层面实施。最基本的是精确匹配缓存——如果用户问的问题与之前某个完全相同的问题一致，直接返回之前缓存的回答。这种缓存的命中率通常不高，因为很少有用户会问完全一样的问题。更有价值的是语义相似缓存——如果用户问的问题与缓存中的某个问题在语义上高度相似，就复用之前的回答或进行少量修改后返回。

语义相似缓存的实现需要借助Embedding技术。你可以维护一个”问题-回答”的缓存库，每个缓存项包含问题的Embedding向量、对应的回答、生成时间、以及有效期。当新的查询进来时，先计算其Embedding，然后在缓存库中搜索最相似的问题。如果相似度超过设定的阈值（比如0.95），就直接返回缓存的回答。如果相似度中等（比如0.80到0.95之间），可以将缓存的回答作为参考，让模型在此基础上调整生成新的回答，这比从零开始生成要快得多也便宜得多。

缓存的设计需要考虑几个重要问题。第一是缓存的有效期。文档库更新后，之前的缓存可能已经过时。你需要设计缓存失效策略，比如在文档更新时自动清除相关缓存，或者设置合理的TTL（Time To Live）。在制造业环境中，工艺规范可能每周更新一次，设备参数可能每天变化，所以不同类型内容的缓存有效期应该不同。

第二是缓存的空间管理。缓存库不能无限增长，你需要设定缓存上限和淘汰策略。常用的淘汰策略包括LRU（最近最少使用）和LFU（最不常使用）。在AI系统的场景中，LFU可能更合适——那些被频繁查询的问题更应该被缓存保留。

第三是缓存的安全性。缓存中的回答可能包含敏感信息，不同用户不应该共享包含机密内容的缓存。你需要根据用户权限来隔离缓存，或者在缓存命中后进行权限检查，确认当前用户有权访问缓存内容。

在制造业的实际场景中，缓存的效益可能超出你的预期。许多工程师会问类似的问题，比如”某型号设备的操作规程”、“某个工艺步骤的标准参数”等。这些问题的答案是相对固定的，非常适合缓存。据一些实际部署的数据，语义缓存在企业知识库场景中的命中率可以达到30%到40%，这意味着30%到40%的查询可以完全跳过模型调用，直接返回缓存结果。

六、分段生成与长文本压缩——控制输出成本的技术

长文本生成是AI系统中成本最高的操作之一。一个详细的分析报告可能消耗数千个输出Token，而输出Token的单价又远高于输入Token。所以在需要生成长文本的场景中，分段生成和长文本压缩是两项重要的成本控制技术。

分段生成的核心思想是把一个长文本生成任务拆分为多个短文本生成任务。不是让模型一次性生成一份5000字的完整报告，而是先生成报告大纲，然后逐章节生成内容。这种做法有几个好处。第一是每次调用的输出Token更少，生成速度更快。第二是如果某个章节的生成质量不满意，只需要重新生成那个章节，而不需要重新生成整份报告。第三是可以并行生成多个独立章节，进一步缩短总生成时间。

分段生成的实现需要一个编排层来管理生成流程。这个编排层负责生成大纲、分配章节生成任务、合并各章节内容、以及检查整体的连贯性和一致性。编排层本身可能需要一两次模型调用来生成大纲和最终检查，但与一次性生成长文本相比，总体上更加灵活和可控。

在半导体制造的报告中，分段生成特别适合。一份典型的工艺分析报告通常包含：概述部分、数据分析部分、异常原因分析部分、改进建议部分、以及附录。这些部分相对独立，可以分别生成。而且不同部分的复杂度不同——数据分析部分可能需要调用顶级模型来处理复杂的统计分析，而附录部分只需要简单的格式化，可以用轻量模型来生成。

长文本压缩是另一项重要的技术。在很多场景中，系统需要把大量的文档内容压缩成简洁的摘要或要点。这个压缩过程本身需要模型调用，但压缩后的文本在后续处理中消耗的Token会大大减少。特别是对于需要长期存储或反复引用的内容，前期的压缩投入可以带来长期的成本节约。

长文本压缩的实现可以采用多种策略。最简单的是提取式压缩——从原文中提取关键句子或段落，去除冗余内容。更复杂的是生成式压缩——让模型理解原文内容后用自己的语言重新表述，保留核心信息但大幅减少篇幅。还有一种混合策略——先提取关键信息点，然后让模型基于这些信息点生成简洁的摘要。

在实际的工程系统中，长文本压缩还有一个重要的应用场景：对话历史管理。在多轮对话中，对话历史会越来越长，每次调用都需要把完整的历史发送给模型。通过定期压缩早期的对话内容，你可以控制输入Token的增长，避免长对话导致成本飙升。

七、低成本模式与高质量模式——灵活的服务等级设计

不是所有的业务场景都需要最高质量的AI输出。内部知识库的快速查询可以容忍偶尔的不完美，而对外发布的合规报告则必须达到极高的准确率。认识到这种需求差异后，你应该为系统设计多种服务等级，让用户可以根据实际需要选择合适的模式。

低成本模式的设计目标是用最小的成本提供”够用”的服务。具体来说，低成本模式可以采取以下策略：使用中级或轻量模型进行生成；减少检索的候选文档数量，跳过Rerank步骤；使用更短的Prompt和更少的上下文；限制最大输出长度；对简单问题直接使用缓存结果或模板回答。

在半导体制造的日常场景中，低成本模式适合用于以下情况：工程师快速查阅设备参数、检索SOP文档、了解工艺流程概述等。这些场景的特点是问题相对简单、答案相对明确、对精确度要求不是极致。一个中级模型配合精准的检索就足以给出满意的回答。

高质量模式则不惜成本追求最佳输出质量。它使用顶级模型、完整的检索和重排序流程、详细的Prompt和充足的上下文、充分的质量检查和可能的多次生成。高质量模式适合用于：生成正式的工程分析报告、回答涉及安全的操作问题、处理涉及多文档综合推理的复杂查询、以及所有面向外部客户或监管机构的输出。

两种模式之间还可以设置中间模式，在成本和质量之间取得平衡。比如使用中级模型进行首次生成，然后自动评估质量，对于不达标准的回答自动升级到顶级模型重新生成。这种自适应的模式既控制了平均成本，又保证了最差情况下的质量下限。

模式的切换可以由多种方式触发。最灵活的是让用户自己选择——在界面上提供一个简单的质量等级选择器。更智能的是系统自动判断——根据问题的类型、复杂度和敏感度自动选择合适的模式。在实际部署中，通常两种方式结合使用，系统有一个默认的自动模式，同时允许用户手动覆盖。

模式设计还需要考虑计费和监控。你应该记录每个模式的使用频率和成本，定期分析这些数据来优化模式的设计。如果发现90%的查询都在使用低成本模式，你可能需要考虑是否可以进一步降低低成本模式的成本。如果发现高质量模式的使用频率异常高，可能需要调查是否有系统性的问题导致太多查询需要高级模式来处理。

八、性能优化——速度与成本的联合优化

成本优化和性能优化往往是相辅相成的。很多降低成本的策略同时也能提升性能——比如缓存减少了重复计算，分段生成降低了单次延迟，模型路由避免了不必要的重模型调用。但也存在一些成本和性能的权衡场景，你需要找到合适的平衡点。

延迟是性能优化的核心指标之一。在交互式场景中，用户期望在几秒内得到回应。如果你的系统需要多步处理，每一步都增加延迟，最终用户等待时间可能达到数十秒，这会严重影响用户体验。降低延迟的策略包括：并行化独立的处理步骤、使用流式输出来减少感知延迟、在模型选择上优先考虑推理速度快的模型。

在半导体制造的实际场景中，性能优化有其特殊的考量。比如在产线上，工程师遇到设备异常时需要快速获取排查指南。如果AI系统需要30秒才能给出回答，工程师可能已经手动翻阅纸质文档找到了答案。所以对于紧急场景，系统需要有”快速响应”模式——即使答案不够完整，也要尽快给出最关键的指导信息，然后可以异步补充更详细的分析。

并行化是性能优化的重要手段。在一个典型的RAG查询中，有些步骤是可以并行执行的。比如当你需要检索多个不同来源的文档时，可以同时发起多个检索请求。当你需要为多个文档片段计算Embedding时，也可以批量并行处理。通过合理设计处理流程中的并行度，你可以显著减少端到端的延迟。

流式输出是另一个重要的性能优化手段。与其等模型生成完整的回答后再返回给用户，不如一边生成一边返回。这样用户可以在几秒内看到回答的开头部分，大大改善了感知速度。对于长文本生成，流式输出的体验优势更加明显。

你还需要关注系统的吞吐量优化。当系统面临高并发请求时，单个请求的延迟可能因为资源竞争而增加。吞吐量优化的策略包括请求队列管理、连接池优化、以及弹性扩缩容。这些策略虽然主要是基础设施层面的优化，但对系统的整体性能和成本效率有重要影响。

今日实践任务总结

今天的实践任务要求你全面分析并优化你的AI系统的成本与性能。第一项任务是统计一次完整报告生成的成本。你需要记录从接收用户查询到返回最终回答的整个流程中，每一步消耗的Token数量和对应的费用。这个分析要足够细致，把系统Prompt、检索内容、生成过程、质量检查等各个环节的成本分别统计出来。

第二项任务是设计模型路由策略。基于你前期的成本分析，识别哪些环节可以用更便宜的模型来处理，哪些环节必须用高质量模型。设计一个清晰的路由规则表，包含任务类型、推荐模型、预期成本和质量影响。

第三项任务是加入缓存机制。实现一个基于语义相似度的缓存层，设定合理的相似度阈值和缓存有效期。上线后持续监控缓存命中率，根据实际数据调整缓存策略。

第四项任务是设计低成本和高质量两种服务模式。明确两种模式在各环节的策略差异——模型选择、检索深度、质量检查严格程度等。设计模式切换的触发机制，并为每种模式设定明确的成本和质量指标。运行两种模式分别处理同一批测试问题，对比分析成本和质量差异，形成一份数据驱动的优化报告。

MindCarver Blog

MindCarver

探索

Day32-成本与性能优化