Day 28：Week 4 复盘与考试

学习目标

Week 4 是一个密度极高的学习周。七天里我们从 Workflow 基础出发，经过 Agent 认知、Tool Calling、Multi-Agent 架构、Human-in-the-loop、Agent 安全，最终到达了今天的复盘与考试。

今天的任务不是学新知识，而是把六天的内容融会贯通。具体来说，要完成三件事。

第一，系统性复盘。逐个模块回顾核心概念，检查理解是否到位、记忆是否牢固、概念之间的关联是否清晰。

第二，综合实战。做一个完整的多 Agent 行业研究系统设计，把 Workflow、Agent、Tool Calling、Multi-Agent、Human-in-the-loop、安全防护全部整合到一个系统中。

第三，查漏补缺。通过自测题和模拟考试发现薄弱环节，制定针对性的补强计划。

核心概念

Workflow 复盘

Workflow 是这一周的起点，也是整个 Agent 系统的骨架。

回顾 Workflow 的核心要点。

Workflow 的本质是把复杂任务拆成有序步骤，按预定义规则执行。它的三个核心特征是：流程预定义、输入输出明确、状态在节点间传递。

Workflow 的设计方法：拆任务、定输入输出、画流程图、加防护。这四步法适用于任何 Workflow 设计场景。

Workflow 和 Agent 的关系：Workflow 是”计划好的流程”，Agent 是”能自己决定流程的系统”。企业应用中常见”Workflow 包裹 Agent”的混合模式——大框架用 Workflow 控制主流程，需要灵活判断的环节嵌入 Agent。

这一周你应该建立的核心认知是：Workflow 不是 Agent 的简化版，而是和 Agent 互补的架构模式。在任务明确、流程固定的场景下，Workflow 比 Agent 更可控、更经济、更容易调试。不要因为 Agent 更”高级”就不用 Workflow。

如果你在 Workflow 部分有以下疑问，说明理解还不够深入：不清楚什么时候用 Workflow、什么时候用 Agent；说不清节点粒度怎么确定；没有理解状态传递中上下文膨胀的问题。

Agent 复盘

Agent 是这一周的核心主题。

回顾 Agent 的核心要点。

Agent 的本质是”目标驱动的自主决策系统”。它能感知环境、做出决策、执行动作、根据反馈调整行为。

Agent 和 Chatbot 的区别：Chatbot 是”你问我答”的被动系统，Agent 是”你给目标我来完成”的主动系统。

Agent 的核心组件：Goal（目标）、State（状态）、Memory（记忆）、Tools（工具）、Planner（规划器）、Executor（执行器）、Reflection（反思）。

Agent 的执行循环：Plan → Execute → Reflect → 检查目标是否完成 → 未完成则继续循环。循环的终止条件包括：目标完成、达到最大步数、达到成本上限、遇到不可恢复错误、人工干预。

Agent 的五大失败模式：无限循环、目标漂移、工具误用、幻觉放大、资源耗尽。

如果你在 Agent 部分有以下疑问，说明理解还不够深入：认为 Agent 就是循环调 API；不清楚 Planner 的三种规划方式的区别；没有理解 Reflection 的代价和过度反思的问题。

Tool Calling 复盘

Tool Calling 是 Agent “做事”的机制。

回顾 Tool Calling 的核心要点。

Tool Schema 包含四个部分：名称（name）、描述（description）、参数（parameters）、输出格式（returns）。其中描述是最容易被忽视却最重要的部分——模型依赖描述来选择工具。

工具选择是模型根据用户请求语义和工具描述做的决策。减少选错的方法：优化工具描述、控制工具数量、在系统提示中明确工具使用场景。

工具失败处理分三个层面：工具内部容错（重试机制）、返回给模型的错误信息（包含错误类型和建议）、Agent 层面的应对策略（换工具、换参数、跳过、报告失败）。

工具权限控制的三个维度：工具级别（哪些 Agent 能用哪些工具）、参数级别（同一工具不同参数范围）、数据级别（同一工具不同数据范围）。

如果你在 Tool Calling 部分有以下疑问，说明理解还不够深入：不知道怎么写好的工具描述；没有考虑工具失败的分层处理；不理解”最小权限原则”在工具设计中的应用。

Multi-Agent 复盘

Multi-Agent 是处理复杂任务的团队协作模式。

回顾 Multi-Agent 的核心要点。

Multi-Agent 解决的三个痛点：任务太复杂单 Agent 搞不定、工具太多选择困难、上下文太长注意力分散。但 Multi-Agent 也有代价：系统复杂度增加、通信成本增加、Token 消耗更大。

Multi-Agent 的核心角色：Orchestrator Agent（主控，协调不干活）和专家 Agent（专精一个领域，配备专用工具和 Prompt）。

Agent 分工的三步方法论：按知识领域分、按工作流程分、按工具集分。

Agent 通信的三种方式：直接消息（简单但耦合）、共享黑板（解耦但管理复杂）、主控转发（可控但 Orchestrator 是瓶颈）。推荐用主控转发模式。

中间结果整合的三步：质量检查、一致性校验、格式统一。

如果你在 Multi-Agent 部分有以下疑问，说明理解还不够深入：不知道怎么判断是否需要 Multi-Agent；没有考虑 Agent 间的冲突处理；认为 Agent 越多越好。

Human-in-the-loop 复盘

Human-in-the-loop 是 Agent 可控性的保障。

回顾核心要点。

需要人工审核的三个原因：模型输出不完全可信、决策涉及主观偏好、责任归属需要明确。

判断是否需要审核的三条标准：出错后果严重程度、是否涉及主观判断、是否影响外部系统。

审核表单的四个区域：上下文区、内容展示区、审核操作区、决策记录区。

中断与继续的实现：保存状态到持久存储、通知审核人、释放资源；加载状态、注入审核结果、继续执行。

高风险动作确认机制：双重确认、操作预览、详细日志。

可追踪执行的三个层面：执行日志、审批日志、变更日志。

如果你在 Human-in-the-loop 部分有以下疑问，说明理解还不够深入：不确定哪些节点需要审核；没有考虑审核超时的处理；忽视了人工反馈对系统改进的价值。

Agent 安全复盘

Agent 安全是系统上线的前提。

回顾核心要点。

Prompt Injection 的三种类型：直接注入（恶意用户输入）、间接注入（外部内容中的恶意指令）、角色注入（试图改变 Agent 身份）。防护是多层防御：输入过滤 + Prompt 加固 + 工具权限 + 执行监控 + 输出审查 + 人工审核。

六种主要失败模式：无限循环、目标漂移、工具误用、幻觉放大、资源耗尽、数据泄露。

安全清单的七大检查项：输入安全、Prompt 安全、工具安全、执行安全、输出安全、数据安全、运维安全。

失败回退的三个级别：节点级回退、任务级回退、系统级回退。

如果你在 Agent 安全部分有以下疑问，说明理解还不够深入：认为自己的系统不需要安全防护；只关注直接注入忽视间接注入；没有设计失败回退策略。

概念关系图

Week 4 知识体系全景

Workflow（Day 22）
  |-- 流程设计
  |-- 节点设计
  |-- 状态传递
  |-- 错误处理
  |
  v
Agent 基础（Day 23）
  |-- 目标驱动
  |-- 自主决策
  |-- 执行循环
  |-- 失败模式
  |
  v
Tool Calling（Day 24）
  |-- 工具定义（Schema）
  |-- 工具选择
  |-- 参数构造
  |-- 权限控制
  |
  v
Multi-Agent（Day 25）
  |-- 分工设计
  |-- Agent 通信
  |-- 结果整合
  |-- 冲突处理
  |
  v
Human-in-the-loop（Day 26）
  |-- 审核节点
  |-- 审核表单
  |-- 中断继续
  |-- 可追踪执行
  |
  v
Agent 安全（Day 27）
  |-- Prompt Injection 防护
  |-- 工具越权防护
  |-- 数据泄露防护
  |-- 失败回退

整合方向（Day 28）：
  Workflow（骨架）
  + Agent（智能决策）
  + Tool Calling（动作执行）
  + Multi-Agent（团队协作）
  + Human-in-the-loop（人工把控）
  + 安全防护（底线保障）
  = 可交付的多 Agent 行业研究系统

多 Agent 行业研究系统 v1 完整架构

用户输入："分析 [行业] 的 AI 应用机会"
  |
  v
[Workflow 主流程]
  |
  +-- 阶段 1：Industry Research Agent
  |   |-- 工具：search_web, read_document
  |   |-- 安全：输入过滤, 最大步数 10
  |   |-- 输出：行业概览 JSON
  |
  +-- [人工审核点 1]
  |
  +-- 阶段 2a：Role Analyst Agent（并行）
  |   |-- 工具：search_web, query_database
  |   |-- 输入：行业概览
  |   |-- 输出：岗位分析 Array
  |
  +-- 阶段 2b：Process Analyst Agent（并行）
  |   |-- 工具：search_web, read_document
  |   |-- 输入：行业概览
  |   |-- 输出：流程分析 Array
  |
  +-- 阶段 3：AI Solution Agent
  |   |-- 工具：search_web, calculate_roi, generate_markdown
  |   |-- 输入：行业概览 + 岗位分析 + 流程分析
  |   |-- 输出：AI 方案 Array
  |
  +-- [人工审核点 2]
  |
  +-- 阶段 4：Risk Review Agent
  |   |-- 工具：read_document, generate_markdown
  |   |-- 输入：以上所有结果
  |   |-- 输出：风险审查 JSON
  |
  +-- 阶段 5：报告生成
  |   |-- 整合所有 Agent 输出
  |   |-- 生成 Markdown 报告
  |
  +-- [人工审核点 3]
  |
  v
最终交付

安全防护（贯穿全流程）：
  |-- 输入过滤（用户输入检查）
  |-- Prompt 加固（系统 Prompt 安全约束）
  |-- 工具白名单（每个 Agent 独立白名单）
  |-- 最大步数限制（每个 Agent 最多 20 步）
  |-- 输出审查（检查敏感信息和合规性）
  |-- 审计日志（全流程可追溯）

实战分析

综合实战：多 Agent 行业研究系统 v1

指南要求做一个完整的多 Agent 行业研究系统。下面从设计到实现，把六天学到的所有知识整合进来。

第一步：定义系统边界

系统名称：多 Agent 行业研究系统 v1 输入：行业名称（必填）+ 分析范围（可选）+ 关注重点（可选）输出：结构化的行业 AI 机会分析报告（Markdown 格式）目标用户：需要快速了解某个行业 AI 应用机会的企业决策者系统定位：不是替代专业咨询，而是提供快速初步分析和方向指引

第二步：设计 Workflow 骨架

采用”Workflow 包裹 Multi-Agent”的架构。主流程用 Workflow 控制，每个 Workflow 节点内部可以是一个 Agent。

主流程节点：

需求理解（Workflow 节点，标准化用户输入）
行业概览（Industry Research Agent）
人工审核点 1
岗位分析 + 流程分析（Role Analyst Agent 和 Process Analyst Agent 并行）
AI 方案设计（AI Solution Agent）
人工审核点 2
风险审查（Risk Review Agent）
报告生成与整合
人工审核点 3
交付

第三步：设计每个 Agent

6 个 Agent 的完整设计前面几天已经展开，这里做汇总。

Orchestrator Agent：负责分解任务、调度执行、整合结果。不参与具体分析。工具：call_agent（调用其他 Agent 的特殊工具）。

Industry Research Agent：负责行业概览。工具：search_web, read_document。最大步数：10。输出：行业概览 JSON。

Role Analyst Agent：负责岗位分析。工具：search_web, query_database。最大步数：10。输出：岗位分析 JSON Array。

Process Analyst Agent：负责流程分析。工具：search_web, read_document。最大步数：10。输出：流程分析 JSON Array。

AI Solution Agent：负责 AI 方案设计。工具：search_web, calculate_roi, generate_markdown。最大步数：15。输出：AI 方案 JSON Array。

Risk Review Agent：负责风险审查。工具：read_document, generate_markdown。最大步数：10。输出：风险审查 JSON。

第四步：设计工具权限表

Agent	search_web	read_document	query_database	calculate_roi	generate_markdown	save_report	send_email_draft	create_task
Orchestrator	-	-	-	-	-	-	-	-
Industry Research	Y	Y	-	-	-	-	-	-
Role Analyst	Y	-	Y	-	-	-	-	-
Process Analyst	Y	Y	-	-	-	-	-	-
AI Solution	Y	-	-	Y	Y	-	-	-
Risk Review	-	Y	-	-	Y	-	-	-

高风险工具 send_email_draft 和 create_task 在 v1 版本中不开放给任何 Agent。所有外部动作由人工手动完成。

第五步：设计安全防护

输入层：用户输入长度限制 500 字符，过滤已知的 Prompt Injection 模式。 Prompt 层：每个 Agent 的系统 Prompt 包含安全约束指令。工具层：每个 Agent 有独立的工具白名单（如上表）。执行层：每个 Agent 有最大步数限制（10-15 步）。输出层：最终报告生成后做输出审查，检查敏感信息和合规性。人工层：三个审核点覆盖关键决策环节。

第六步：设计数据流

用户输入 → 需求理解节点 → 标准化需求 JSON → Industry Research Agent → 行业概览 JSON → 人工审核（通过/修改/退回） → 并行：Role Analyst Agent → 岗位分析 JSON → 并行：Process Analyst Agent → 流程分析 JSON → AI Solution Agent → AI 方案 JSON → 人工审核（通过/修改/退回） → Risk Review Agent → 风险审查 JSON → 报告整合 → Markdown 报告 → 人工审核（通过/退回） → 交付

每个环节的输出都保存到持久存储，支持中断恢复和审计追溯。

第七步：评估系统

系统完成后，从以下维度评估。

功能维度：系统能否完成一个完整的行业分析？输出是否覆盖了概览、岗位、流程、方案、风险五个方面？

质量维度：分析结果是否有参考价值？AI 方案的可行性如何？ROI 估算的合理性如何？

安全维度：系统对 Prompt Injection 攻击的抵抗力如何？工具权限是否严格？数据是否安全？

效率维度：完成一次完整分析需要多长时间？消耗多少 Token？成本如何？

用户体验维度：审核流程是否顺畅？报告是否易读？是否需要过多人工干预？

当日产物说明

《多 Agent 行业研究系统 v1》

这是整个 Week 4 的最终产出。包含完整的系统设计文档：系统架构、Agent 设计、工具设计、安全设计、数据流设计、人工审核设计。

质量标准：设计文档可以直接作为开发依据。一个有经验的开发者拿到这份文档，能在 2-3 天内实现系统原型。

《Week 4 学习总结》

这份文档总结 Week 4 的全部学习内容，包含：每天的核心概念回顾、知识体系图、个人学习心得、薄弱环节清单、后续补强计划。

质量标准：总结不应该是概念列表的简单复制，而应该体现个人的理解和思考。用自己的话重新解释核心概念，而不是照搬原文。

《Agent 架构图》

一张完整的系统架构图，展示 Workflow 主流程、6 个 Agent 的关系、工具调用、数据流向、审核节点、安全防护层。

质量标准：图上能看到系统的全貌，也能看到每个组件的细节。不同类型的组件（Agent、工具、审核点、数据流）用不同视觉元素区分。

《安全测试记录》

用 30 个 Prompt Injection 测试样例对系统进行测试的记录。每个样例包含：测试输入、系统响应、是否通过（系统是否正确防护了攻击）、备注。

质量标准：30 个测试样例全部执行并记录结果。未通过的样例要有原因分析和改进建议。

常见误区与避坑

误区一：复盘就是重新看一遍笔记

有效的复盘不是”重新读一遍”，而是”主动回忆 + 查漏补缺”。合上笔记，试着用自己的话把每个核心概念讲出来。讲不出来的地方就是薄弱环节，需要重点复习。

误区二：只关注知识记忆，不关注能力整合

Week 4 的目标是”掌握智能体工作流设计”，不只是记住一堆概念。最终的能力体现在：给你一个业务场景，你能设计出合理的 Agent 系统方案。这种整合能力需要在实战中锻炼，光靠记忆不够。

误区三：考试得了高分就说明掌握了

自测题能检验概念理解，但无法检验实践能力。真正的检验是：给你一个全新的业务场景（不是行业分析，比如客户服务自动化、设备运维诊断），你能不能用这一周学到的 Workflow + Agent + Tool Calling + 安全的方法论设计出系统方案？如果做不到，说明知识还停留在”记忆”层面，没有转化成”能力”。

误区四：急于进入 Week 5，跳过复盘

Week 4 的内容是整个学习计划中最密集的一周。这些知识在 Week 5-8 会反复用到。如果 Week 4 的基础不扎实，后面的内容会越学越吃力。花一天时间彻底复盘，比急着进入下一周更有价值。

误区五：系统设计完美主义

v1 版本不需要完美。一个能跑通基本流程、有基本安全防护、有人工审核节点的系统，已经是有价值的交付物。不要追求在 v1 就实现所有高级功能（Memory、自适应规划、复杂冲突处理）。先把核心流程跑通，再逐步迭代。

延伸思考

Week 4 结束了，回顾这一周的学习路径，有几个值得总结的规律。

第一，从简单到复杂的递进。先学 Workflow（固定流程），再学 Agent（动态决策），再学 Multi-Agent（团队协作）。每一层都建立在前一层的基础上。这个递进关系不仅是学习顺序，也是设计系统的思路：先用 Workflow 搭骨架，再用 Agent 填血肉，最后用 Multi-Agent 做分工。

第二，从能力到安全的平衡。前四天都在构建能力（Workflow、Agent、Tool Calling、Multi-Agent），后两天转向可控和安全（Human-in-the-loop、安全防护）。这个顺序是有意为之的：先知道系统能做什么，再确保系统不会做不该做的事。

第三，工程思维贯穿始终。这一周的内容始终从工程视角出发，不是学术论文式的概念推导。每个知识点都回答了”这东西在实际项目中怎么用”的问题。这种工程思维需要在后续几周继续保持。

从与 Week 1-3 的衔接来看，Week 4 把前三周的基础能力整合成了可运行的系统。Week 1 的 AI 全景认知提供了方向感，Week 2 的 API 和结构化输出提供了实现手段，Week 3 的 RAG 提供了知识检索能力。Week 4 把这些能力组合成了 Workflow 和 Agent。

从与 Week 5 的衔接来看，Week 5 的主题是”工程化、Eval、安全与部署”。Week 4 产出的是一个设计文档和可能的 Demo 原型。Week 5 要把这个原型变成可部署的 MVP，包括：工程架构重构、评估体系建设、成本优化、完整的安全实现、容器化部署。

Week 6 的”行业挖掘与解决方案设计”会使用 Week 4 的多 Agent 系统来加速行业分析。理想状态下，你输入一个行业名称，系统能在 10 分钟内生成初步的行业分析报告，大大加速你的行业拆解效率。

最后，给自己一个客观的评价。这一周你学了 Workflow 设计、Agent 架构、Tool Calling、Multi-Agent 分工、Human-in-the-loop、Agent 安全六个大主题。如果你能用一张 A4 纸画出完整的多 Agent 行业研究系统架构图，并能向一个不懂技术的人解释清楚这个系统怎么运作，Week 4 的学习就是成功的。

自测问题（Week 4 综合测试）

第一部分：概念理解

用三句话概括 Workflow、Agent、Multi-Agent 三者的关系。
Agent 的执行循环由哪三个核心组件驱动？各自的角色是什么？
Tool Schema 的四个组成部分中，哪一个对工具选择准确率影响最大？为什么？
为什么 Multi-Agent 系统推荐用主控转发模式而不是直接消息模式？
Human-in-the-loop 的”渐进式放手”策略是什么意思？什么条件下可以减少审核频率？

第二部分：设计能力

给定一个新的业务场景”客户服务自动化”，你会怎么设计 Workflow 骨架？至少列出 5 个节点。
为”客户服务 Agent”设计 3 个工具的完整 Schema（名称、描述、参数、输出）。
在客户服务自动化系统中，哪些节点需要人工审核？判断依据是什么？
设计一条针对客户服务 Agent 的 Prompt Injection 攻击样例，并说明防护方法。
如果客户服务 Agent 经常出现”目标漂移”（比如客户问一个与投诉无关的问题，Agent 就跟着跑偏了），你会怎么在 Prompt 和系统层面防护？

第三部分：综合分析

你接到一个需求：为一家物流企业设计一个”智能调度助手”。请用这一周学到的知识，从 Workflow 设计、Agent 设计、工具设计、安全设计四个维度给出方案框架。
你的 Multi-Agent 系统在测试中发现：Industry Research Agent 的输出经常被审核人修改，通过率只有 60%。你会从哪些方面分析原因？可能的改进方向有哪些？
一次安全测试发现：攻击者通过在搜索结果中嵌入间接注入指令，成功让 Agent 调用了不在白名单中的工具。这个攻击利用了系统中的哪些薄弱环节？怎么修复？
比较以下两个系统设计方案的优缺点：方案 A 是一个功能强大的单 Agent，配备 15 个工具；方案 B 是 5 个专家 Agent，每个配备 3 个工具。什么情况下选 A，什么情况下选 B？
你正在向一位企业客户（制造业老板）解释你的多 Agent 行业研究系统。他问：“为什么不直接用 ChatGPT 问就行了？为什么要搞这么复杂的系统？“你会怎么回答？

关键词

Week 4 复盘：对 Workflow、Agent、Tool Calling、Multi-Agent、Human-in-the-loop、Agent 安全六个模块的系统性回顾
知识整合：将六个独立模块的知识融合为可运行系统的能力
系统设计：从需求分析到架构设计的完整系统设计过程
Workflow 包裹 Agent：大框架用 Workflow 控制、关键环节嵌入 Agent 的混合架构模式
安全清单：Agent 系统上线前的安全检查项汇总
失败回退：系统在不同严重程度故障下的应急处理策略
渐进式放手：随着系统质量提升逐步减少人工介入的策略
工程思维：从实际项目需求出发、关注可行性和可交付性的设计思维
能力-安全平衡：在 Agent 功能丰富度和系统安全性之间找到合理平衡点
综合评估：从功能、质量、安全、效率、用户体验五个维度评估系统

MindCarver Blog

MindCarver

探索

Day28-Week4复盘与考试