Day 28:Week 4 复盘与考试

学习目标

Week 4 是一个密度极高的学习周。七天里我们从 Workflow 基础出发,经过 Agent 认知、Tool Calling、Multi-Agent 架构、Human-in-the-loop、Agent 安全,最终到达了今天的复盘与考试。

今天的任务不是学新知识,而是把六天的内容融会贯通。具体来说,要完成三件事。

第一,系统性复盘。逐个模块回顾核心概念,检查理解是否到位、记忆是否牢固、概念之间的关联是否清晰。

第二,综合实战。做一个完整的多 Agent 行业研究系统设计,把 Workflow、Agent、Tool Calling、Multi-Agent、Human-in-the-loop、安全防护全部整合到一个系统中。

第三,查漏补缺。通过自测题和模拟考试发现薄弱环节,制定针对性的补强计划。


核心概念

Workflow 复盘

Workflow 是这一周的起点,也是整个 Agent 系统的骨架。

回顾 Workflow 的核心要点。

Workflow 的本质是把复杂任务拆成有序步骤,按预定义规则执行。它的三个核心特征是:流程预定义、输入输出明确、状态在节点间传递。

Workflow 的设计方法:拆任务、定输入输出、画流程图、加防护。这四步法适用于任何 Workflow 设计场景。

Workflow 和 Agent 的关系:Workflow 是”计划好的流程”,Agent 是”能自己决定流程的系统”。企业应用中常见”Workflow 包裹 Agent”的混合模式——大框架用 Workflow 控制主流程,需要灵活判断的环节嵌入 Agent。

这一周你应该建立的核心认知是:Workflow 不是 Agent 的简化版,而是和 Agent 互补的架构模式。在任务明确、流程固定的场景下,Workflow 比 Agent 更可控、更经济、更容易调试。不要因为 Agent 更”高级”就不用 Workflow。

如果你在 Workflow 部分有以下疑问,说明理解还不够深入:不清楚什么时候用 Workflow、什么时候用 Agent;说不清节点粒度怎么确定;没有理解状态传递中上下文膨胀的问题。

Agent 复盘

Agent 是这一周的核心主题。

回顾 Agent 的核心要点。

Agent 的本质是”目标驱动的自主决策系统”。它能感知环境、做出决策、执行动作、根据反馈调整行为。

Agent 和 Chatbot 的区别:Chatbot 是”你问我答”的被动系统,Agent 是”你给目标我来完成”的主动系统。

Agent 的核心组件:Goal(目标)、State(状态)、Memory(记忆)、Tools(工具)、Planner(规划器)、Executor(执行器)、Reflection(反思)。

Agent 的执行循环:Plan Execute Reflect 检查目标是否完成 未完成则继续循环。循环的终止条件包括:目标完成、达到最大步数、达到成本上限、遇到不可恢复错误、人工干预。

Agent 的五大失败模式:无限循环、目标漂移、工具误用、幻觉放大、资源耗尽。

如果你在 Agent 部分有以下疑问,说明理解还不够深入:认为 Agent 就是循环调 API;不清楚 Planner 的三种规划方式的区别;没有理解 Reflection 的代价和过度反思的问题。

Tool Calling 复盘

Tool Calling 是 Agent “做事”的机制。

回顾 Tool Calling 的核心要点。

Tool Schema 包含四个部分:名称(name)、描述(description)、参数(parameters)、输出格式(returns)。其中描述是最容易被忽视却最重要的部分——模型依赖描述来选择工具。

工具选择是模型根据用户请求语义和工具描述做的决策。减少选错的方法:优化工具描述、控制工具数量、在系统提示中明确工具使用场景。

工具失败处理分三个层面:工具内部容错(重试机制)、返回给模型的错误信息(包含错误类型和建议)、Agent 层面的应对策略(换工具、换参数、跳过、报告失败)。

工具权限控制的三个维度:工具级别(哪些 Agent 能用哪些工具)、参数级别(同一工具不同参数范围)、数据级别(同一工具不同数据范围)。

如果你在 Tool Calling 部分有以下疑问,说明理解还不够深入:不知道怎么写好的工具描述;没有考虑工具失败的分层处理;不理解”最小权限原则”在工具设计中的应用。

Multi-Agent 复盘

Multi-Agent 是处理复杂任务的团队协作模式。

回顾 Multi-Agent 的核心要点。

Multi-Agent 解决的三个痛点:任务太复杂单 Agent 搞不定、工具太多选择困难、上下文太长注意力分散。但 Multi-Agent 也有代价:系统复杂度增加、通信成本增加、Token 消耗更大。

Multi-Agent 的核心角色:Orchestrator Agent(主控,协调不干活)和专家 Agent(专精一个领域,配备专用工具和 Prompt)。

Agent 分工的三步方法论:按知识领域分、按工作流程分、按工具集分。

Agent 通信的三种方式:直接消息(简单但耦合)、共享黑板(解耦但管理复杂)、主控转发(可控但 Orchestrator 是瓶颈)。推荐用主控转发模式。

中间结果整合的三步:质量检查、一致性校验、格式统一。

如果你在 Multi-Agent 部分有以下疑问,说明理解还不够深入:不知道怎么判断是否需要 Multi-Agent;没有考虑 Agent 间的冲突处理;认为 Agent 越多越好。

Human-in-the-loop 复盘

Human-in-the-loop 是 Agent 可控性的保障。

回顾核心要点。

需要人工审核的三个原因:模型输出不完全可信、决策涉及主观偏好、责任归属需要明确。

判断是否需要审核的三条标准:出错后果严重程度、是否涉及主观判断、是否影响外部系统。

审核表单的四个区域:上下文区、内容展示区、审核操作区、决策记录区。

中断与继续的实现:保存状态到持久存储、通知审核人、释放资源;加载状态、注入审核结果、继续执行。

高风险动作确认机制:双重确认、操作预览、详细日志。

可追踪执行的三个层面:执行日志、审批日志、变更日志。

如果你在 Human-in-the-loop 部分有以下疑问,说明理解还不够深入:不确定哪些节点需要审核;没有考虑审核超时的处理;忽视了人工反馈对系统改进的价值。

Agent 安全复盘

Agent 安全是系统上线的前提。

回顾核心要点。

Prompt Injection 的三种类型:直接注入(恶意用户输入)、间接注入(外部内容中的恶意指令)、角色注入(试图改变 Agent 身份)。防护是多层防御:输入过滤 + Prompt 加固 + 工具权限 + 执行监控 + 输出审查 + 人工审核。

六种主要失败模式:无限循环、目标漂移、工具误用、幻觉放大、资源耗尽、数据泄露。

安全清单的七大检查项:输入安全、Prompt 安全、工具安全、执行安全、输出安全、数据安全、运维安全。

失败回退的三个级别:节点级回退、任务级回退、系统级回退。

如果你在 Agent 安全部分有以下疑问,说明理解还不够深入:认为自己的系统不需要安全防护;只关注直接注入忽视间接注入;没有设计失败回退策略。


概念关系图

Week 4 知识体系全景

Workflow(Day 22)
  |-- 流程设计
  |-- 节点设计
  |-- 状态传递
  |-- 错误处理
  |
  v
Agent 基础(Day 23)
  |-- 目标驱动
  |-- 自主决策
  |-- 执行循环
  |-- 失败模式
  |
  v
Tool Calling(Day 24)
  |-- 工具定义(Schema)
  |-- 工具选择
  |-- 参数构造
  |-- 权限控制
  |
  v
Multi-Agent(Day 25)
  |-- 分工设计
  |-- Agent 通信
  |-- 结果整合
  |-- 冲突处理
  |
  v
Human-in-the-loop(Day 26)
  |-- 审核节点
  |-- 审核表单
  |-- 中断继续
  |-- 可追踪执行
  |
  v
Agent 安全(Day 27)
  |-- Prompt Injection 防护
  |-- 工具越权防护
  |-- 数据泄露防护
  |-- 失败回退

整合方向(Day 28):
  Workflow(骨架)
  + Agent(智能决策)
  + Tool Calling(动作执行)
  + Multi-Agent(团队协作)
  + Human-in-the-loop(人工把控)
  + 安全防护(底线保障)
  = 可交付的多 Agent 行业研究系统
多 Agent 行业研究系统 v1 完整架构

用户输入:"分析 [行业] 的 AI 应用机会"
  |
  v
[Workflow 主流程]
  |
  +-- 阶段 1:Industry Research Agent
  |   |-- 工具:search_web, read_document
  |   |-- 安全:输入过滤, 最大步数 10
  |   |-- 输出:行业概览 JSON
  |
  +-- [人工审核点 1]
  |
  +-- 阶段 2a:Role Analyst Agent(并行)
  |   |-- 工具:search_web, query_database
  |   |-- 输入:行业概览
  |   |-- 输出:岗位分析 Array
  |
  +-- 阶段 2b:Process Analyst Agent(并行)
  |   |-- 工具:search_web, read_document
  |   |-- 输入:行业概览
  |   |-- 输出:流程分析 Array
  |
  +-- 阶段 3:AI Solution Agent
  |   |-- 工具:search_web, calculate_roi, generate_markdown
  |   |-- 输入:行业概览 + 岗位分析 + 流程分析
  |   |-- 输出:AI 方案 Array
  |
  +-- [人工审核点 2]
  |
  +-- 阶段 4:Risk Review Agent
  |   |-- 工具:read_document, generate_markdown
  |   |-- 输入:以上所有结果
  |   |-- 输出:风险审查 JSON
  |
  +-- 阶段 5:报告生成
  |   |-- 整合所有 Agent 输出
  |   |-- 生成 Markdown 报告
  |
  +-- [人工审核点 3]
  |
  v
最终交付

安全防护(贯穿全流程):
  |-- 输入过滤(用户输入检查)
  |-- Prompt 加固(系统 Prompt 安全约束)
  |-- 工具白名单(每个 Agent 独立白名单)
  |-- 最大步数限制(每个 Agent 最多 20 步)
  |-- 输出审查(检查敏感信息和合规性)
  |-- 审计日志(全流程可追溯)

实战分析

综合实战:多 Agent 行业研究系统 v1

指南要求做一个完整的多 Agent 行业研究系统。下面从设计到实现,把六天学到的所有知识整合进来。

第一步:定义系统边界

系统名称:多 Agent 行业研究系统 v1 输入:行业名称(必填)+ 分析范围(可选)+ 关注重点(可选) 输出:结构化的行业 AI 机会分析报告(Markdown 格式) 目标用户:需要快速了解某个行业 AI 应用机会的企业决策者 系统定位:不是替代专业咨询,而是提供快速初步分析和方向指引

第二步:设计 Workflow 骨架

采用”Workflow 包裹 Multi-Agent”的架构。主流程用 Workflow 控制,每个 Workflow 节点内部可以是一个 Agent。

主流程节点:

  1. 需求理解(Workflow 节点,标准化用户输入)
  2. 行业概览(Industry Research Agent)
  3. 人工审核点 1
  4. 岗位分析 + 流程分析(Role Analyst Agent 和 Process Analyst Agent 并行)
  5. AI 方案设计(AI Solution Agent)
  6. 人工审核点 2
  7. 风险审查(Risk Review Agent)
  8. 报告生成与整合
  9. 人工审核点 3
  10. 交付

第三步:设计每个 Agent

6 个 Agent 的完整设计前面几天已经展开,这里做汇总。

Orchestrator Agent:负责分解任务、调度执行、整合结果。不参与具体分析。工具:call_agent(调用其他 Agent 的特殊工具)。

Industry Research Agent:负责行业概览。工具:search_web, read_document。最大步数:10。输出:行业概览 JSON。

Role Analyst Agent:负责岗位分析。工具:search_web, query_database。最大步数:10。输出:岗位分析 JSON Array。

Process Analyst Agent:负责流程分析。工具:search_web, read_document。最大步数:10。输出:流程分析 JSON Array。

AI Solution Agent:负责 AI 方案设计。工具:search_web, calculate_roi, generate_markdown。最大步数:15。输出:AI 方案 JSON Array。

Risk Review Agent:负责风险审查。工具:read_document, generate_markdown。最大步数:10。输出:风险审查 JSON。

第四步:设计工具权限表

Agentsearch_webread_documentquery_databasecalculate_roigenerate_markdownsave_reportsend_email_draftcreate_task
Orchestrator--------
Industry ResearchYY------
Role AnalystY-Y-----
Process AnalystYY------
AI SolutionY--YY---
Risk Review-Y--Y---

高风险工具 send_email_draft 和 create_task 在 v1 版本中不开放给任何 Agent。所有外部动作由人工手动完成。

第五步:设计安全防护

输入层:用户输入长度限制 500 字符,过滤已知的 Prompt Injection 模式。 Prompt 层:每个 Agent 的系统 Prompt 包含安全约束指令。 工具层:每个 Agent 有独立的工具白名单(如上表)。 执行层:每个 Agent 有最大步数限制(10-15 步)。 输出层:最终报告生成后做输出审查,检查敏感信息和合规性。 人工层:三个审核点覆盖关键决策环节。

第六步:设计数据流

用户输入 需求理解节点 标准化需求 JSON Industry Research Agent 行业概览 JSON 人工审核(通过/修改/退回) 并行:Role Analyst Agent 岗位分析 JSON 并行:Process Analyst Agent 流程分析 JSON AI Solution Agent AI 方案 JSON 人工审核(通过/修改/退回) Risk Review Agent 风险审查 JSON 报告整合 Markdown 报告 人工审核(通过/退回) 交付

每个环节的输出都保存到持久存储,支持中断恢复和审计追溯。

第七步:评估系统

系统完成后,从以下维度评估。

功能维度:系统能否完成一个完整的行业分析?输出是否覆盖了概览、岗位、流程、方案、风险五个方面?

质量维度:分析结果是否有参考价值?AI 方案的可行性如何?ROI 估算的合理性如何?

安全维度:系统对 Prompt Injection 攻击的抵抗力如何?工具权限是否严格?数据是否安全?

效率维度:完成一次完整分析需要多长时间?消耗多少 Token?成本如何?

用户体验维度:审核流程是否顺畅?报告是否易读?是否需要过多人工干预?


当日产物说明

《多 Agent 行业研究系统 v1》

这是整个 Week 4 的最终产出。包含完整的系统设计文档:系统架构、Agent 设计、工具设计、安全设计、数据流设计、人工审核设计。

质量标准:设计文档可以直接作为开发依据。一个有经验的开发者拿到这份文档,能在 2-3 天内实现系统原型。

《Week 4 学习总结》

这份文档总结 Week 4 的全部学习内容,包含:每天的核心概念回顾、知识体系图、个人学习心得、薄弱环节清单、后续补强计划。

质量标准:总结不应该是概念列表的简单复制,而应该体现个人的理解和思考。用自己的话重新解释核心概念,而不是照搬原文。

《Agent 架构图》

一张完整的系统架构图,展示 Workflow 主流程、6 个 Agent 的关系、工具调用、数据流向、审核节点、安全防护层。

质量标准:图上能看到系统的全貌,也能看到每个组件的细节。不同类型的组件(Agent、工具、审核点、数据流)用不同视觉元素区分。

《安全测试记录》

用 30 个 Prompt Injection 测试样例对系统进行测试的记录。每个样例包含:测试输入、系统响应、是否通过(系统是否正确防护了攻击)、备注。

质量标准:30 个测试样例全部执行并记录结果。未通过的样例要有原因分析和改进建议。


常见误区与避坑

误区一:复盘就是重新看一遍笔记

有效的复盘不是”重新读一遍”,而是”主动回忆 + 查漏补缺”。合上笔记,试着用自己的话把每个核心概念讲出来。讲不出来的地方就是薄弱环节,需要重点复习。

误区二:只关注知识记忆,不关注能力整合

Week 4 的目标是”掌握智能体工作流设计”,不只是记住一堆概念。最终的能力体现在:给你一个业务场景,你能设计出合理的 Agent 系统方案。这种整合能力需要在实战中锻炼,光靠记忆不够。

误区三:考试得了高分就说明掌握了

自测题能检验概念理解,但无法检验实践能力。真正的检验是:给你一个全新的业务场景(不是行业分析,比如客户服务自动化、设备运维诊断),你能不能用这一周学到的 Workflow + Agent + Tool Calling + 安全 的方法论设计出系统方案?如果做不到,说明知识还停留在”记忆”层面,没有转化成”能力”。

误区四:急于进入 Week 5,跳过复盘

Week 4 的内容是整个学习计划中最密集的一周。这些知识在 Week 5-8 会反复用到。如果 Week 4 的基础不扎实,后面的内容会越学越吃力。花一天时间彻底复盘,比急着进入下一周更有价值。

误区五:系统设计完美主义

v1 版本不需要完美。一个能跑通基本流程、有基本安全防护、有人工审核节点的系统,已经是有价值的交付物。不要追求在 v1 就实现所有高级功能(Memory、自适应规划、复杂冲突处理)。先把核心流程跑通,再逐步迭代。


延伸思考

Week 4 结束了,回顾这一周的学习路径,有几个值得总结的规律。

第一,从简单到复杂的递进。先学 Workflow(固定流程),再学 Agent(动态决策),再学 Multi-Agent(团队协作)。每一层都建立在前一层的基础上。这个递进关系不仅是学习顺序,也是设计系统的思路:先用 Workflow 搭骨架,再用 Agent 填血肉,最后用 Multi-Agent 做分工。

第二,从能力到安全的平衡。前四天都在构建能力(Workflow、Agent、Tool Calling、Multi-Agent),后两天转向可控和安全(Human-in-the-loop、安全防护)。这个顺序是有意为之的:先知道系统能做什么,再确保系统不会做不该做的事。

第三,工程思维贯穿始终。这一周的内容始终从工程视角出发,不是学术论文式的概念推导。每个知识点都回答了”这东西在实际项目中怎么用”的问题。这种工程思维需要在后续几周继续保持。

从与 Week 1-3 的衔接来看,Week 4 把前三周的基础能力整合成了可运行的系统。Week 1 的 AI 全景认知提供了方向感,Week 2 的 API 和结构化输出提供了实现手段,Week 3 的 RAG 提供了知识检索能力。Week 4 把这些能力组合成了 Workflow 和 Agent。

从与 Week 5 的衔接来看,Week 5 的主题是”工程化、Eval、安全与部署”。Week 4 产出的是一个设计文档和可能的 Demo 原型。Week 5 要把这个原型变成可部署的 MVP,包括:工程架构重构、评估体系建设、成本优化、完整的安全实现、容器化部署。

Week 6 的”行业挖掘与解决方案设计”会使用 Week 4 的多 Agent 系统来加速行业分析。理想状态下,你输入一个行业名称,系统能在 10 分钟内生成初步的行业分析报告,大大加速你的行业拆解效率。

最后,给自己一个客观的评价。这一周你学了 Workflow 设计、Agent 架构、Tool Calling、Multi-Agent 分工、Human-in-the-loop、Agent 安全六个大主题。如果你能用一张 A4 纸画出完整的多 Agent 行业研究系统架构图,并能向一个不懂技术的人解释清楚这个系统怎么运作,Week 4 的学习就是成功的。


自测问题(Week 4 综合测试)

第一部分:概念理解

  1. 用三句话概括 Workflow、Agent、Multi-Agent 三者的关系。

  2. Agent 的执行循环由哪三个核心组件驱动?各自的角色是什么?

  3. Tool Schema 的四个组成部分中,哪一个对工具选择准确率影响最大?为什么?

  4. 为什么 Multi-Agent 系统推荐用主控转发模式而不是直接消息模式?

  5. Human-in-the-loop 的”渐进式放手”策略是什么意思?什么条件下可以减少审核频率?

第二部分:设计能力

  1. 给定一个新的业务场景”客户服务自动化”,你会怎么设计 Workflow 骨架?至少列出 5 个节点。

  2. 为”客户服务 Agent”设计 3 个工具的完整 Schema(名称、描述、参数、输出)。

  3. 在客户服务自动化系统中,哪些节点需要人工审核?判断依据是什么?

  4. 设计一条针对客户服务 Agent 的 Prompt Injection 攻击样例,并说明防护方法。

  5. 如果客户服务 Agent 经常出现”目标漂移”(比如客户问一个与投诉无关的问题,Agent 就跟着跑偏了),你会怎么在 Prompt 和系统层面防护?

第三部分:综合分析

  1. 你接到一个需求:为一家物流企业设计一个”智能调度助手”。请用这一周学到的知识,从 Workflow 设计、Agent 设计、工具设计、安全设计四个维度给出方案框架。

  2. 你的 Multi-Agent 系统在测试中发现:Industry Research Agent 的输出经常被审核人修改,通过率只有 60%。你会从哪些方面分析原因?可能的改进方向有哪些?

  3. 一次安全测试发现:攻击者通过在搜索结果中嵌入间接注入指令,成功让 Agent 调用了不在白名单中的工具。这个攻击利用了系统中的哪些薄弱环节?怎么修复?

  4. 比较以下两个系统设计方案的优缺点:方案 A 是一个功能强大的单 Agent,配备 15 个工具;方案 B 是 5 个专家 Agent,每个配备 3 个工具。什么情况下选 A,什么情况下选 B?

  5. 你正在向一位企业客户(制造业老板)解释你的多 Agent 行业研究系统。他问:“为什么不直接用 ChatGPT 问就行了?为什么要搞这么复杂的系统?“你会怎么回答?


关键词

  • Week 4 复盘:对 Workflow、Agent、Tool Calling、Multi-Agent、Human-in-the-loop、Agent 安全六个模块的系统性回顾
  • 知识整合:将六个独立模块的知识融合为可运行系统的能力
  • 系统设计:从需求分析到架构设计的完整系统设计过程
  • Workflow 包裹 Agent:大框架用 Workflow 控制、关键环节嵌入 Agent 的混合架构模式
  • 安全清单:Agent 系统上线前的安全检查项汇总
  • 失败回退:系统在不同严重程度故障下的应急处理策略
  • 渐进式放手:随着系统质量提升逐步减少人工介入的策略
  • 工程思维:从实际项目需求出发、关注可行性和可交付性的设计思维
  • 能力-安全平衡:在 Agent 功能丰富度和系统安全性之间找到合理平衡点
  • 综合评估:从功能、质量、安全、效率、用户体验五个维度评估系统