Day 35:Week 5 复盘与考试
学习目标
今天是第五周的收官之日,也是检验你这五周学习成果的关键时刻。复盘这个词在工程管理中有着特殊的意义——它不仅仅是回顾做了什么,更重要的是理解为什么这样做、效果如何、以及下一步应该怎么走。在半导体制造的良率提升过程中,每一批晶圆的工艺参数都会被详细记录和分析,工程师通过复盘找出良率波动的根因,然后针对性地优化工艺参数。我们今天对AI系统的复盘遵循同样的逻辑——系统地回顾每一项工程决策,评估其效果,识别改进空间,最终产出一个完整的可演示MVP和配套的评估报告。
复盘的方法论可以借鉴制造业中广泛使用的PDCA循环——Plan(计划)、Do(执行)、Check(检查)、Act(改进)。我们过去几周的学习和开发是Plan和Do阶段,今天的复盘就是Check阶段,而基于复盘结论制定的优化计划则是Act阶段。这个循环不是一次性的,而是持续运转的。每一次迭代都应该比上一次更好,系统应该在持续复盘中不断进化。今天结束后,你应该拥有一个可以对外展示的AI Agent系统原型,以及三份关键文档:Eval评估报告、成本分析报告、以及安全审计报告。
一、工程架构复盘——系统的骨架是否健壮
工程架构是整个AI系统的骨架。在过去几周中,你从零开始搭建了一个完整的AI Agent系统——从最基础的LLM调用到复杂的多轮对话管理,从简单的关键词搜索到基于向量数据库的RAG检索增强生成。现在是时候回头审视这些架构决策是否经得起实际使用的考验了。
架构复盘需要从几个维度来进行。首先是模块化程度。你的系统是否做到了关注点分离?当需要修改检索逻辑时,是否会影响到生成模块?当需要更换底层模型时,是否需要大范围改动代码?如果答案是肯定的,说明系统的耦合度还太高,需要进一步解耦。一个好的架构应该让你能够独立修改、测试和替换任何一个模块,而不影响其他部分。
其次是可扩展性。当你的用户从10个增长到100个、1000个时,系统架构是否能够平滑扩展?你的FastAPI后端能否通过增加工作进程来处理更多的并发请求?你的向量数据库能否通过增加节点来存储更多的文档?你的缓存层能否在更高的并发下保持稳定的命中率?这些问题在当前可能不是紧迫的,但在系统设计阶段就应该有所考虑。就像芯片设计中的可制造性设计(DFM)原则一样,在设计阶段就要考虑未来的制造和扩展需求。
第三是可维护性。当新成员加入团队时,他们需要多长时间才能理解系统的整体架构和代码结构?你的代码是否有足够的注释和文档说明关键的设计决策?你的项目结构是否清晰,让人一眼就能看出每个目录和文件的职责?如果新成员需要花费数周才能开始有效贡献代码,那说明系统的可维护性还需要提升。
在架构复盘的过程中,你还应该检查系统是否有”过度工程”的迹象。过度工程是指为当前不需要的功能预先设计了复杂的架构。比如,如果你的系统目前只有几十个用户,却设计了完整的微服务架构和服务网格,这就是过度工程。过度工程不仅增加了开发和维护的成本,还可能让系统变得不必要的复杂。好的架构应该是刚好满足当前需求并预留合理的扩展空间,而不是试图预测所有可能的未来需求。
架构复盘的最后一步是画一张更新后的系统架构图。这张图应该准确反映系统的当前状态,而不是计划中的理想状态。架构图是团队沟通的重要工具——它确保所有人对系统的理解是一致的。在架构图上标注每个组件的技术选型、部署方式、以及组件之间的数据流向。这张图也将成为你后续迭代的重要参考基线。
在半导体制造的企业环境中,架构复盘还需要考虑一个现实的问题——与现有IT基础设施和工具链的集成深度。你的AI系统不是独立存在的,它需要嵌入到工程师的日常工作流程中。架构复盘时应该检查系统是否能够与团队已经习惯使用的工具(如飞书、企业微信、JIRA等)顺畅集成。如果工程师需要离开他们日常使用的工具,专门打开一个新系统来使用AI助手,使用率很可能会大打折扣。好的架构设计应该让AI能力”无处不在”——嵌入到用户已有的工作流中,而不是要求用户改变工作习惯来适应新系统。
二、Prompt管理复盘——AI行为的指挥棒是否精准
Prompt是你与AI模型沟通的桥梁,Prompt的质量直接决定了系统输出的质量。在过去几周的学习中,你编写了多种类型的Prompt:系统级的角色设定Prompt、检索查询生成Prompt、回答生成Prompt、质量检查Prompt、以及自动评分Prompt。现在是时候系统地复盘这些Prompt的效果了。
Prompt管理复盘的第一步是梳理你所有的Prompt资产。你可能惊讶地发现,一个中等复杂度的AI系统中,活跃使用的Prompt可能有二三十个之多。这些Prompt散落在不同的代码文件中,如果没有统一的管理机制,很容易出现版本混乱、重复定义、甚至互相矛盾的情况。你需要建立一个Prompt注册表,记录每个Prompt的用途、当前版本、最近修改日期、以及依赖它的功能模块。
第二步是评估每个Prompt的稳定性和可预测性。一个好的Prompt应该在大多数情况下产生一致的、符合预期的输出。你可以通过批量测试来评估稳定性——用同一组输入反复运行同一个Prompt,检查输出的波动程度。如果波动很大,说明Prompt的指令不够明确,模型在执行时有较大的自由发挥空间。在某些场景下这种自由度是好事(比如创意写作),但在工程应用中,稳定性和可预测性通常比创意性更重要。
第三步是检查Prompt之间的协作是否顺畅。在Agent系统中,多个Prompt通常需要协同工作——一个Prompt的输出可能成为另一个Prompt的输入。如果第一个Prompt的输出格式不稳定,第二个Prompt可能无法正确解析输入,导致整个链路失败。你需要检查所有Prompt之间的接口定义是否清晰、格式约束是否明确、以及错误处理是否完善。
在半导体制造的AI系统中,Prompt复盘还有一个特殊的角度——专业术语的使用是否准确和一致。半导体行业有大量专业术语,而且不同公司甚至不同产线对同一概念的叫法可能不同。你的Prompt中使用的术语是否与目标用户的习惯一致?比如,有的团队说”晶圆”,有的说”硅片”,有的说”圆片”。如果Prompt中的术语与用户的使用习惯不一致,可能导致检索遗漏或理解偏差。
Prompt复盘的输出应该是一份Prompt优化清单,列出所有需要改进的Prompt及其具体问题。按照影响程度排序,优先优化那些对系统输出质量影响最大的Prompt。对于每个需要优化的Prompt,记录当前版本的问题描述、优化方案、以及预期的改进效果。这份清单将指导你下一轮的迭代优化工作。
在Prompt复盘过程中,还有一个非常实用但常被忽略的做法——建立Prompt版本管理机制。每次修改Prompt时,记录修改内容、修改原因、以及修改前后的效果对比数据。这种版本记录不仅帮助你追踪Prompt的演变历史,还能在某个修改导致效果退化时快速回退到之前的版本。在实际项目中,Prompt的迭代频率可能远高于代码的迭代频率,一套好的版本管理实践能够显著降低迭代的风险和成本。你可以把所有Prompt集中管理在一个配置文件或数据库中,而不是散落在代码的各处,这样版本管理和对比分析都会方便很多。
三、Eval复盘——评估体系是否有效指导了质量提升
昨天你花了整整一天建立Eval评估体系,今天是检验这套体系是否真正有效的时候。一个有效的Eval体系应该能够帮助你快速发现问题、准确定位问题根因、以及客观评估改进效果。如果Eval体系本身存在缺陷——比如测试集不够全面、评分标准不够清晰、或者评分结果与实际体验不一致——那么它不仅不能帮助你提升质量,还可能误导你的优化方向。
Eval复盘首先要检查测试集的覆盖度。回顾你建立的50条测试集,它们是否覆盖了系统实际使用中的主要场景?有没有遗漏某些重要的查询类型?在半导体制造的AI助手中,常见的查询类型包括:单文档事实查询(如”设备X的最大功率是多少”)、跨文档推理查询(如”对比A方案和B方案的良率差异”)、操作指导查询(如”如何执行设备Y的季度维护”)、数据分析查询(如”上周的异常停机次数趋势”)、以及边界情况和异常查询。你的测试集是否在这些类型上都有充分的覆盖?
其次是检查评分标准与实际体验的一致性。你可以选取一批测试样本,分别进行自动评分和人工评分,然后对比两种评分结果的差异。如果自动评分和人工评分之间有较大的系统性偏差——比如自动评分总是比人工评分更宽松——那么自动评分的标准可能需要调整。同时检查评分结果的可区分性——好的回答和差的回答之间是否有明显的分数差异?如果所有回答的分数都集中在很窄的范围内,说明评分标准的区分度不够,无法有效识别质量问题。
第三是检查Eval体系的反馈循环效率。当你发现某个测试用例的得分较低时,你能够多快地定位问题并实施改进?如果从发现低分到确认根因需要很长时间,说明Eval报告的诊断信息不够充分。一个好的Eval报告不仅告诉你”哪里有问题”,还应该帮助你理解”为什么有问题”以及”应该怎么改”。
Eval复盘还需要评估Eval本身的运行成本。运行一次完整的Eval需要消耗多少Token?需要多长时间?如果Eval本身的成本过高或耗时过长,团队可能会减少运行Eval的频率,这反而会影响质量保障的持续性。你可能需要设计一个”快速Eval”版本——只包含最关键的测试用例,能够在几分钟内完成,用于日常迭代时的快速验证。
还有一个值得深入思考的Eval策略问题——你的测试集是否需要随着业务发展持续更新?答案是肯定的。在半导体制造的实际运营中,新的工艺规范不断发布,新的设备型号不断引入,旧的测试用例可能逐渐失去代表性。你需要建立一个测试集维护机制:定期从线上真实查询中选取有代表性的样本补充到测试集中,同时淘汰过时的测试用例。一个好的测试集应该像良率监控系统一样,始终反映当前的生产实际。理想的做法是每月对测试集做一次审查,评估其覆盖率是否仍然充足,是否需要补充新的场景类型。
四、成本优化复盘——花出去的每一分钱是否值得
成本优化复盘是对你的AI系统经济效益的全面审视。在之前的学习中,你学会了如何统计和分析系统成本。现在你需要把这些分析结果汇总成一份完整的成本报告,评估系统在当前架构下的经济可持续性。
成本复盘的第一步是建立成本基线。统计过去一周或两周的系统运行数据,计算以下指标:平均每个查询的总成本(包括模型调用、向量检索、缓存等所有环节)、平均每个查询的Token消耗(分别统计输入和输出Token)、不同类型查询的成本分布(简单查询和复杂查询的成本差异)、以及成本随时间的变化趋势(是否有异常的成本波动)。
第二步是分析成本结构。在你的系统中,哪部分是最大的成本驱动因素?是模型调用的Token费用,还是向量数据库的运维成本?是Rerank的计算费用,还是存储和带宽成本?理解成本结构是制定有效优化策略的前提。如果你发现模型调用占了总成本的80%,那么优化检索策略、减少不必要的模型调用是最有效的降本手段。如果向量数据库的运维成本占比很高,那么考虑更轻量的向量数据库方案可能是更好的选择。
第三步是评估之前实施的成本优化措施的实际效果。你在Day 32设计的模型路由策略是否有效降低了平均查询成本?缓存机制的实际命中率是多少,为你节省了多少成本?低成本模式和高质量模式的使用比例是否符合预期?用实际数据来验证优化措施的效果,而不是依赖理论估算。
成本复盘还需要考虑一个更深层次的问题:成本与价值的关系。在半导体制造中,工程师使用AI系统查找信息、生成报告、辅助决策,这些活动带来的价值是什么?如果AI系统帮助一个工程师每天节省一小时的文档查找时间,按照工程师的时薪计算,这每天就是数百元的价值。如果AI系统帮助避免了一次工艺错误,可能避免的损失是数十万甚至数百万。把AI系统的成本与它创造的价值放在一起看,你才能判断这笔投入是否值得。
成本报告的最后应该包含一个成本预测模型——基于当前的使用数据和增长预期,预测未来三个月到一年的系统运营成本。这个预测可以帮助管理层做出预算规划,也可以帮助你提前识别潜在的成本瓶颈并制定应对策略。
五、安全权限复盘——防线是否有漏洞
安全权限复盘是整个复盘过程中最不能掉以轻心的环节。安全问题的特殊性在于,99天的安全运行不能保证第100天不出问题,但一次安全事故就足以摧毁用户对系统的全部信任。在半导体行业这种对信息安全和知识产权保护极度敏感的领域,安全权限复盘的重要性怎么强调都不过分。
安全复盘的第一步是回顾安全架构设计。你在Day 33设计的安全权限方案是否已经完整实施?有没有因为时间压力而跳过的安全措施?特别检查以下几点:用户权限验证是否在每个查询处理时都正确执行?文档权限过滤是否在检索阶段就生效?高风险操作确认机制是否已经接入所有必要的工具?审计日志是否记录了所有关键操作?
第二步是进行安全测试。设计一组专门的安全测试用例来验证系统的安全防护能力。这些测试应该包括:越权访问测试——用一个低权限账号尝试访问高权限才能看到的信息。Prompt注入测试——尝试通过精心构造的输入来绕过系统的安全限制。数据泄露测试——检查不同用户的查询结果中是否包含不属于当前用户的信息。工具滥用测试——尝试通过正常或异常的方式触发不应该被触发的工具操作。
第三步是审查审计日志。分析过去一段时间的审计日志,查找异常模式。比如:是否有用户频繁访问与其角色不匹配的文档?是否有大量权限拒绝记录(可能意味着权限配置有问题,也可能意味着有人在尝试越权访问)?是否有异常的操作时间模式(比如非工作时间的频繁查询)?
安全复盘还应该评估安全措施的”可用性影响”。安全措施是否让系统的正常使用变得显著不便?如果工程师因为安全限制而无法及时获取需要的信息,这种安全措施在保护信息的同时也损害了工作效率。理想的安全措施应该是”透明的”——在保护核心资产的同时不增加正常使用的摩擦。如果安全措施导致了明显的效率下降,你需要重新思考安全设计的平衡点。
安全报告应该包含安全架构概述、已实施的安全措施清单、安全测试的结果、发现的安全问题及修复建议、以及后续的安全改进计划。这份报告应该由安全负责人审核签字,作为系统安全状态的正式记录。
安全复盘还有一个长远价值——它为建立团队的安全文化奠定了基础。在半导体行业中,安全意识已经成为每一位工程师的基本素养,无论是生产安全还是信息安全,都需要全员参与和持续关注。通过定期的安全复盘,你可以让团队成员逐步建立起对AI系统安全风险的敏锐感知,这种集体安全意识的提升比任何单点的技术措施都更有价值。当团队中每个人都能在日常工作中自觉地考虑安全问题时,系统的整体安全性就会得到根本性的保障。
六、部署复盘——上线是否顺利,运维是否顺畅
如果你已经按照Day 34的指导完成了系统部署,那么现在是复盘部署过程的好时机。部署复盘关注的是:部署流程是否顺畅?部署后系统是否稳定运行?运维过程中遇到了哪些问题?
部署复盘首先要回顾部署过程中遇到的问题。哪些步骤比预期更复杂?哪些配置导致了意外的错误?部署花了多长时间?如果需要重新部署一次,流程是否可以简化?这些反思将帮助你优化部署文档和自动化脚本,让未来的部署更加顺畅。
其次是检查部署后的系统稳定性。系统上线后的正常运行时间是多少?有没有出现过意外的服务中断?有没有遇到过性能瓶颈导致响应变慢?这些信息可以从健康检查日志和监控面板中获取。
在半导体制造环境中,部署复盘还需要考虑与现有IT基础设施的兼容性。你的AI系统是否需要通过公司内部的网络代理才能访问外部API?是否需要特殊的防火墙规则才能正常工作?是否需要在公司的容器注册表中注册你的Docker镜像?这些企业IT环境的特殊要求往往在技术文档中找不到明确的说明,需要在实际部署中逐步发现和解决。
部署复盘的输出应该是一份经过实践验证的部署指南——不同于Day 34编写的理论版部署文档,这份指南包含了实际部署中遇到的问题和解决方案。同时记录部署的完整步骤和每一步的预计耗时,为未来的部署提供更准确的时间和资源预估。
此外,部署复盘也是检查你的灾难恢复能力的好时机。当系统出现严重故障需要从头重建时,你能否在可接受的时间范围内完成恢复?你的数据库备份是否经过验证可以成功恢复?你的配置是否全部通过环境变量管理,不需要手动重新配置?在制造业的连续生产环境中,系统不可用的时间越长,造成的业务影响越大。建议在复盘期间实际执行一次灾难恢复演练,记录恢复的完整过程和耗时,找出可以改进的环节。
今日实践任务——综合考试
今天的实践任务是整个第五周的综合考核,要求你产出一个完整的可演示MVP和配套的报告。
第一项任务是完成一个可演示的MVP。这个MVP应该能够端到端地展示你的AI Agent系统的核心能力:接收用户查询、执行文档检索、生成高质量回答、处理工具调用、以及生成结构化报告。准备至少三个演示场景,覆盖系统的不同能力维度。如果可能,使用真实的半导体制造文档作为知识库内容,让演示更有说服力。
第二项任务是运行完整的50条测试集。使用你在Day 31建立的Eval体系,对所有50条测试用例运行评估。记录每条测试在各维度的得分,计算各维度的平均分和分布情况。识别得分最低的测试用例,分析失分原因。
第三项任务是输出Eval评估报告。报告应该包含:测试集概述(覆盖的场景和分布)、各维度的评估结果(平均分、分布、趋势)、典型问题案例分析(好的案例和差的案例各选几个做详细分析)、主要问题模式总结(哪些类型的问题系统处理得不好)、以及改进建议(针对每个主要问题提出具体的优化方案)。
第四项任务是输出成本分析报告。报告应该包含:成本基线数据(平均查询成本、Token消耗分布)、成本结构分析(各环节的成本占比)、成本优化措施效果评估(路由策略、缓存机制等的实际效果数据)、成本预测模型(未来三个月的成本预估)、以及成本与价值分析(系统成本与创造价值的对比)。
第五项任务是输出安全审计报告。报告应该包含:安全架构概述、已实施的安全措施清单、安全测试结果(越权测试、注入测试、数据泄露测试的结果)、审计日志分析结论、已知安全风险及缓解措施、以及安全改进路线图。
这五份产出(可演示MVP加三份报告)构成了你AI Agent系统的第一版正式交付物。它们不仅是你个人学习成果的证明,也是向团队和管理层展示项目价值的工具。记住,一个好的技术项目不仅需要技术本身过硬,还需要能够向非技术人员清晰地传达项目的价值和状态。这些文档就是你最有效的沟通工具。
最后,在完成所有复盘和考试任务之后,建议你花一些时间做一次个人学习回顾。回顾这五周的学习历程,从第一天的LLM基础调用到今天的完整系统复盘,你经历了怎样的认知变化?哪些知识点的理解发生了根本性的转变?哪些实践经验是你之前完全没有预料到的?把这些思考记录下来,它们将成为你后续继续深入学习和实践的最宝贵的参考资料。AI技术发展迅速,具体的工具和框架可能很快就会过时,但系统化的思维方法和工程实践能力是长期有效的。今天的复盘不仅是对项目的复盘,也是对你自身学习方法和成长路径的一次深度反思。