Day 7：第一周复盘 —— 从“懂模型”升级到“能设计半导体 AI 项目”

Day 7 不学新模型。

今天的目标是把前 6 天全部串起来，让你形成一个完整的判断能力：

当客户说“我想用 AI 提高外延片良率”，你不能马上说用大模型、用深度学习、用 Agent。
你要先判断：这是分类问题、回归问题、异常检测问题，还是一个组合型质量风险系统。

1. 第一周你到底学了什么？

第一周其实不是在教你机器学习公式，而是在训练你建立一套 AI 应用分析框架。

你已经学了 6 个核心模块：

Day 1：
把新磊外延片业务链路拆成 AI 场景
 
Day 2：
理解 X、y、训练集、测试集、预测时间点、数据泄露
 
Day 3：
分类问题：Pass / Fail 质量风险预测
 
Day 4：
回归问题：预测 PL、XRD、厚度、缺陷数量等关键指标
 
Day 5：
异常检测：没有 Fail 标签时，先识别异常 run / 异常设备 / 工艺漂移
 
Day 6：
把分类、回归、异常检测组合成一个 Mini 外延片质量风险评分系统

你现在要从“知道这些概念”变成“能拿这些概念设计方案”。

2. 第一周最重要的一张总图

你要把下面这张图记住。

半导体 AI 项目不是从模型开始。
 
正确顺序是：
 
业务问题
    ↓
预测时间点
    ↓
数据来源
    ↓
一行数据代表什么
    ↓
X 是什么
    ↓
y 是什么
    ↓
是否有标签
    ↓
选择任务类型
    ↓
选择模型
    ↓
评估指标
    ↓
风险解释
    ↓
业务动作

很多人做 AI 项目失败，是因为他直接从这里开始：

我要用什么模型？

但真正应该从这里开始：

这个业务问题到底要在什么时间点，基于哪些已知信息，预测什么结果？

3. 你现在应该能看懂这 6 类问题

问题 1：这批外延片会不会不合格？

这是：

分类问题

典型模型：

CatBoostClassifier
LightGBMClassifier
XGBoostClassifier
RandomForestClassifier
LogisticRegression

输出：

Fail 概率
风险等级

业务动作：

高风险 run 进入工程师复核列表

问题 2：这批片的 PL 强度是多少？

这是：

回归问题

典型模型：

CatBoostRegressor
LightGBMRegressor
XGBoostRegressor
RandomForestRegressor
LinearRegression

输出：

预测 PL 强度
预测 XRD FWHM
预测厚度均匀性
预测缺陷数量

业务动作：

如果预测值超过规格线，则优先复查对应检测项

问题 3：这次 MBE 生长过程是否异常？

这是：

异常检测问题

典型模型：

Z-score
IQR
Isolation Forest
One-Class SVM
AutoEncoder
Control Chart
EWMA

输出：

anomaly_score
异常等级
异常字段

业务动作：

异常 run 优先检测；
异常设备进入维护排查；
异常 recipe 进入工艺复核。

问题 4：这个 recipe 最近是不是漂移了？

这是：

漂移检测 / 趋势检测问题

典型方法：

移动平均
EWMA
Control Chart
PSI
KS Test
趋势分析

输出：

是否漂移
漂移方向
漂移开始时间

业务动作：

暂停自动放行；
复查最近几炉；
对比设备、材料、维护记录。

问题 5：外延片/晶圆图有没有缺陷？

这是：

图像分类 / 目标检测 / 图像分割问题

典型模型：

CNN
ResNet
EfficientNet
YOLO
U-Net
Vision Transformer
AutoEncoder
PatchCore

输出：

缺陷类型
缺陷位置
缺陷面积
风险等级

业务动作：

减少人工看图；
提高检测一致性；
沉淀缺陷模式和工艺原因之间的关系。

问题 6：客户投诉后怎么找原因？

这是：

RAG + Agent + 根因分析问题

典型技术：

文档解析
向量数据库
RAG
知识图谱
LLM Agent
工具调用
历史相似案例检索

输出：

相关批次
相关检测报告
相似历史案例
可能根因
建议复查项
客户回复草稿

业务动作：

缩短工程师排查时间；
提高客户响应速度；
沉淀专家经验。

4. 第一周最核心的 3 个模型思维

你现在要形成 3 个基本判断。

4.1 有明确 Pass / Fail 标签，用分类

条件：

历史数据里有足够多 Pass 样本
也有足够多 Fail 样本
标签比较稳定
预测时间点清楚

就可以做：

Pass / Fail 分类模型

目标不是自动判废，而是：

输出 Fail 风险概率
让工程师优先复核高风险批次

你要重点看：

Fail Recall
Precision
PR-AUC
Top-K Recall

不要只看：

Accuracy

4.2 有连续质量指标，用回归

条件：

有 PL、XRD、厚度、缺陷数量、电学指标等连续数值
但最终 Pass / Fail 标签不一定多

可以先做：

关键质量指标回归预测

比如：

预测 PL intensity
预测 XRD FWHM
预测 thickness_uniformity
预测 surface_defect_count

然后结合规格线转成风险：

PL < 70 → PL 风险
XRD FWHM > 55 → XRD 风险
厚度均匀性 > 5% → 厚度风险

这比单纯 Pass / Fail 更容易解释。

4.3 没有足够标签，用异常检测

条件：

没有足够 Fail 标签
但有大量正常生产数据
有设备参数、工艺参数、过程曲线、报警日志

就先做：

异常检测

目标不是直接预测 Fail，而是判断：

当前 run 是否不像历史正常 run
当前设备是否不像历史健康状态
当前 recipe 是否开始漂移

这在真实半导体项目早期非常有价值。

5. 第一周最重要的一个产品原型

你第一个可讲给客户的产品不是“一个模型”，而是：

外延片质量风险评分系统

完整结构如下：

输入：
MBE run 级工艺参数
设备状态
recipe 信息
衬底批次
源材料状态
 
模型层：
1. 异常检测模型
2. Pass / Fail 分类模型
3. 关键指标回归模型
4. 规则评分器
 
输出：
Fail 风险概率
异常分数
预测 PL
预测 XRD
预测厚度均匀性
综合风险等级
建议复查动作

你要记住一句话：

真正能落地的不是模型，而是“风险评分 + 原因解释 + 业务动作”。

6. 用一个完整案例复盘

假设客户给你一条新 run 数据：

Run ID：RUN2026-0018
产品：HEMT
Recipe：R-HEMT-017
设备：MBE-03
 
actual_temp_std = 3.9
pressure_std_ratio = 0.16
flux_std = 0.08
alarm_count = 3
days_since_maintenance = 98
source_usage_hours = 840

你现在不能只说：

这批可能有问题。

你应该用第一周学到的框架这样拆。

第一步：判断预测时间点

当前是：

MBE 生长完成后，检测前

所以可以用：

生长过程统计特征
设备状态
recipe
衬底批次
源材料状态

不能用：

PL 检测结果
XRD 检测结果
最终 QC
客户反馈

第二步：做异常检测

异常检测输出：

anomaly_score = 0.84

解释：

当前 run 的温度波动、压力波动、报警次数、源材料使用时长组合起来，明显偏离历史正常 run。

业务含义：

这次生长过程不像正常状态，应该优先复核。

第三步：做分类预测

分类模型输出：

Fail probability = 0.63

业务含义：

模型认为这次 run 的 Fail 风险偏高。

但你不能说：

它一定是 Fail。

你应该说：

它应该进入工程师复核队列。

第四步：做回归预测

回归模型输出：

预测 PL intensity = 68.2
规格线：>= 70
 
预测 XRD FWHM = 52.5
规格线：<= 55
 
预测 thickness_uniformity = 4.8%
规格线：<= 5%

业务解释：

PL 有明显风险；
XRD 目前预测正常；
厚度均匀性接近上限，需要关注。

第五步：生成综合风险

结合：

异常分数高
Fail 概率高
PL 预测低于规格线
厚度均匀性接近上限

综合输出：

风险等级：高风险

建议动作：

1. 优先做 PL mapping 复查
2. 复查温控曲线
3. 复查真空/压力日志
4. 检查源材料使用状态
5. 暂缓直接放行，进入工程师复核

这就是一个完整的 AI 应用输出。

7. 你现在应该怎么跟老板解释？

你不要这样讲：

我们用 CatBoost、LightGBM、Isolation Forest、SHAP 做一个模型。

老板不关心这些。

你要这样讲：

第一阶段我们不直接做自动判废，而是做一个外延片质量风险评分系统。
 
系统会在 MBE 生长完成后、检测前，根据工艺参数、设备状态、recipe、衬底和源材料信息，给每次 run 输出质量风险等级。
 
如果某次 run 的温度波动、压力波动、报警次数、源材料状态和历史正常状态明显不同，系统会标记为高风险，并建议工程师优先复查 PL、XRD 或表面检测。
 
这样做的价值是：
第一，提前发现高风险批次；
第二，减少工程师盲目排查；
第三，逐步沉淀质量问题和工艺参数之间的关系；
第四，等数据积累足够后，再升级到良率预测和 recipe 推荐。

这段话你可以直接拿去讲。

8. 你现在应该怎么跟工程师解释？

工程师不一定信 AI，所以不能说：

模型判断这批片有问题。

你要说：

模型不是替代你的判断，而是帮你把历史数据里的异常模式提前排出来。
 
它会告诉你：
这次 run 哪些参数偏离了同 recipe 的历史正常范围；
哪些设备状态可能异常；
预测哪些质量指标可能接近规格线；
建议你优先看哪些检测项。
 
最终是否放行，仍然由工程师判断。

这句话很重要。

因为工业 AI 早期最怕让工程师觉得：

AI 要替我做决定。

正确定位应该是：

AI 是质量工程师的风险雷达。

9. 第一周最容易犯的 8 个错误

错误 1：一上来就问用什么模型

正确做法：

先定义预测时间点、X、y、业务动作。

错误 2：把检测后字段当输入

比如你在检测前预测质量，却把：

PL
XRD
final_qc_result
engineer_comment

放进 X。

这就是数据泄露。

错误 3：只看 Accuracy

质量异常通常是少数样本。

模型全部预测 Pass，Accuracy 也可能很高，但业务上完全没用。

应该重点看：

Fail Recall
Top-K Recall
Precision
PR-AUC

错误 4：没有 Fail 标签还硬做分类

如果 Fail 样本太少，不要硬做 Pass / Fail 分类。

先做：

异常检测
质量指标回归
工程师风险等级标注

错误 5：所有产品和 recipe 混在一起建模

HEMT、HBT、VCSEL、APD 的工艺逻辑不同。

同一个温度值，在不同 recipe 里意义可能完全不同。

所以要考虑：

product_type
recipe_id
相对 recipe 偏差
分组建模

错误 6：只输出分数，没有解释

模型输出：

Fail probability = 0.68

还不够。

必须输出：

为什么高风险？
哪些参数异常？
建议复查什么？

错误 7：试图第一版就自动闭环控制

比如直接让模型推荐 recipe，甚至自动调机台。

这太早了。

正确路线是：

先风险识别
再指标预测
再异常解释
再工程师复核
最后才是参数优化

错误 8：没有工程师反馈闭环

模型上线后必须记录：

工程师是否认可
是否误报
是否漏报
最终检测结果如何
客户是否反馈

没有反馈闭环，模型无法持续变好。

10. 第一周能力验收测试

你现在可以自测一下。

测试 1：判断任务类型

问题 A

根据 MBE 生长过程参数预测最终 Pass / Fail。

答案：

分类问题

问题 B

根据工艺参数预测 PL intensity。

答案：

回归问题

问题 C

只有正常 run 数据，想发现当前 run 是否不像正常生产状态。

答案：

异常检测问题

问题 D

同一个 recipe 最近 30 炉 XRD FWHM 慢慢升高。

答案：

漂移检测 / 趋势检测问题

问题 E

根据 wafer map 判断缺陷类型。

答案：

图像分类问题

11. 测试 2：判断字段能不能用

预测时间点：

MBE 生长完成后，PL/XRD 检测前

字段：

recipe_id
equipment_id
growth_temp_std
pressure_std
alarm_count
pl_intensity
xrd_fwhm
final_qc_result
customer_complaint
days_since_maintenance
source_usage_hours

可以用：

recipe_id
equipment_id
growth_temp_std
pressure_std
alarm_count
days_since_maintenance
source_usage_hours

不能用：

pl_intensity
xrd_fwhm
final_qc_result
customer_complaint

原因：

这些字段在检测后、最终判定后或出货后才知道。

12. 测试 3：判断业务指标

假设测试集中：

真实 Fail = 100 批
模型报警 = 150 批
报警中真实 Fail = 70 批

那么：

TP = 70
FP = 80
FN = 30

Recall：

70 / 100 = 70%

Precision：

70 / 150 = 46.7%

业务解释：

模型抓出了 70% 的异常批次；
但报警批次里只有约 47% 真实异常；
这可能适合作为工程师复核系统，但不适合自动判废。

这就是你要会讲的。

13. 你现在应该形成的“项目落地顺序”

如果你未来真的去做新磊这种项目，不要一上来就做大系统。

第一阶段应该这样走：

第 1 步：业务访谈
弄清楚外延片生产流程、检测流程、质量判定规则。
 
第 2 步：数据盘点
有哪些数据？在哪些系统？字段含义是什么？能不能按 run / wafer / lot 串起来？
 
第 3 步：定义预测时间点
生长前、生长中、生长后检测前、检测后出货前，各自能用的数据不同。
 
第 4 步：定义第一版任务
建议先做 MBE 生长后、检测前的 run 级质量风险评分。
 
第 5 步：数据审计
检查缺失值、异常值、标签分布、时间范围、产品类型、recipe 数量。
 
第 6 步：建立 v0.1 模型
异常检测 + 分类 + 回归 + 规则评分。
 
第 7 步：离线回测
看历史上高风险批次是否能被提前识别。
 
第 8 步：工程师复核
让工程师看 Top 50 高风险 run，判断模型解释是否合理。
 
第 9 步：影子模式试运行
模型只打分，不干预生产，观察 2~4 周。
 
第 10 步：小范围上线
先做提醒系统，不做自动判废系统。

14. 第一周最终项目文档模板

你现在可以写一份迷你方案文档。

标题：

新磊半导体外延片质量风险评分系统 v0.1

结构如下：

1. 项目背景
 
2. 业务目标
 
3. 预测时间点
 
4. 数据输入
 
5. 不能使用的数据
 
6. 模型设计
   6.1 异常检测模型
   6.2 Pass / Fail 分类模型
   6.3 关键指标回归模型
   6.4 规则评分器
 
7. 输出结果
 
8. 风险等级定义
 
9. 工程师建议动作
 
10. 评估指标
 
11. 试点流程
 
12. 后续升级方向

这个模板非常重要。它比你单纯会写模型代码更值钱。

15. 第一周最终作业

今天作业不是写代码，而是写一份项目方案。

作业 1：写项目背景

模板：

新磊半导体的核心业务是化合物半导体外延片制造，MBE 生长过程对温度、压力、束流、源材料状态和设备稳定性非常敏感。
 
传统质量判断主要依赖检测结果和工程师经验，存在问题发现滞后、排查效率低、经验难沉淀的问题。
 
因此，第一阶段可以建设一个外延片质量风险评分系统，在 MBE 生长完成后、检测前，根据工艺和设备数据提前识别高风险 run，辅助工程师优先检测和复核。

作业 2：写第一版任务定义

模板：

任务名称：
MBE 生长后外延片质量风险评分
 
预测时间点：
MBE 生长完成后，PL/XRD/AFM/表面检测前
 
一行数据代表：
一次 MBE run
 
输入 X：
recipe_id
equipment_id
chamber_id
substrate_batch
source_material_batch
growth_temp_mean
growth_temp_std
pressure_mean
pressure_std
flux_mean
flux_std
alarm_count
days_since_maintenance
source_usage_hours
 
输出：
Fail 风险概率
异常分数
预测 PL
预测 XRD
预测厚度均匀性
综合风险等级
建议动作
 
不能使用：
PL 检测结果
XRD 检测结果
AFM 结果
表面检测结果
最终 QC
客户反馈
工程师最终评语

作业 3：写模型设计

模板：

模型 1：异常检测模型
方法：Isolation Forest + Z-score
作用：识别当前 run 是否偏离历史正常工艺状态
 
模型 2：Pass / Fail 分类模型
方法：CatBoost / LightGBM
作用：预测最终 Fail 风险概率
 
模型 3：关键指标回归模型
方法：CatBoostRegressor / LightGBMRegressor
作用：预测 PL、XRD、厚度均匀性等关键质量指标
 
模型 4：规则评分器
方法：模型结果 + 规格线 + 工程经验规则
作用：生成综合风险等级和建议动作

作业 4：写评估指标

模板：

分类模型：
重点看 Fail Recall、Precision、PR-AUC、Top-K Recall，不以 Accuracy 作为唯一指标。
 
回归模型：
重点看 MAE、RMSE、规格线附近预测误差、超规格识别能力。
 
异常检测：
重点看 Top 异常 run 是否被工程师认可，异常分数是否能提前发现设备/工艺漂移。
 
业务指标：
高风险 run 中真实异常占比；
工程师复核效率提升；
异常批次提前发现率；
误报成本是否可接受；
是否减少客户质量风险。

作业 5：写最终输出报告模板

模板：

Run ID：
产品类型：
Recipe：
设备：
 
综合风险等级：
 
模型输出：
- Fail 风险概率：
- 异常分数：
- 预测 PL：
- 预测 XRD FWHM：
- 预测厚度均匀性：
 
主要风险原因：
1.
2.
3.
 
建议动作：
1.
2.
3.

16. Day 7 验收标准

今天学完，第一周就算完成。

你合格的标准是：

1. 能把外延片质量问题拆成分类、回归、异常检测
2. 能定义预测时间点
3. 能说明哪些字段能用，哪些字段不能用
4. 能解释什么是数据泄露
5. 能说清楚为什么不能只看 Accuracy
6. 能解释 Fail Recall 和 Top-K Recall 的业务意义
7. 能说明异常检测为什么适合无标签早期场景
8. 能把多个模型组合成质量风险评分系统
9. 能把模型输出转成工程师建议动作
10. 能写出一个 v0.1 项目方案

17. 第一周最终总结

你第一周真正学到的是：

机器学习不是先选模型，而是先把业务问题定义成一个可预测、可验证、可解释、可行动的问题。

对于新磊这种外延片企业，第一阶段最合适的 AI 项目不是大模型聊天机器人，也不是一上来做自动调参，而是：

MBE 生长后、检测前的外延片质量风险评分系统。

它由 4 部分组成：

异常检测：
发现不像正常工艺状态的 run
 
分类模型：
预测 Pass / Fail 风险
 
回归模型：
预测 PL、XRD、厚度、缺陷等关键指标
 
规则评分器：
结合规格线和工程经验生成风险等级与建议动作

最终目标不是替代工程师，而是：

让工程师更早看到高风险批次；
更快知道该查什么；
更系统地沉淀质量问题和工艺参数之间的关系。

18. Day 8 预告

从 Day 8 开始，进入第二周：

表格数据建模：质量预测 / 良率预测

接下来会更偏实战：

数据清洗
缺失值处理
类别变量处理
特征工程
LightGBM / CatBoost 建模
类别不平衡处理
SHAP 解释
模型报告生成

Day 8 的主题是：

制造业数据清洗：拿到一张外延片数据表后，第一眼应该检查什么？

第二周开始，你会逐渐进入真正的代码和数据处理。

MindCarver Blog

MindCarver

探索

机器学习 day7

Day 7：第一周复盘 —— 从“懂模型”升级到“能设计半导体 AI 项目”

1. 第一周你到底学了什么？

2. 第一周最重要的一张总图

3. 你现在应该能看懂这 6 类问题

问题 1：这批外延片会不会不合格？

问题 2：这批片的 PL 强度是多少？

问题 3：这次 MBE 生长过程是否异常？

问题 4：这个 recipe 最近是不是漂移了？

问题 5：外延片/晶圆图有没有缺陷？

问题 6：客户投诉后怎么找原因？

4. 第一周最核心的 3 个模型思维

4.1 有明确 Pass / Fail 标签，用分类

4.2 有连续质量指标，用回归

4.3 没有足够标签，用异常检测

5. 第一周最重要的一个产品原型

6. 用一个完整案例复盘

第一步：判断预测时间点

第二步：做异常检测

第三步：做分类预测

第四步：做回归预测

第五步：生成综合风险

7. 你现在应该怎么跟老板解释？

8. 你现在应该怎么跟工程师解释？

9. 第一周最容易犯的 8 个错误

错误 1：一上来就问用什么模型

错误 2：把检测后字段当输入

错误 3：只看 Accuracy

错误 4：没有 Fail 标签还硬做分类

错误 5：所有产品和 recipe 混在一起建模

错误 6：只输出分数，没有解释

错误 7：试图第一版就自动闭环控制

错误 8：没有工程师反馈闭环

10. 第一周能力验收测试

测试 1：判断任务类型

问题 A

问题 B

问题 C

问题 D

问题 E

11. 测试 2：判断字段能不能用

12. 测试 3：判断业务指标

13. 你现在应该形成的“项目落地顺序”

14. 第一周最终项目文档模板

15. 第一周最终作业

作业 1：写项目背景

作业 2：写第一版任务定义

作业 3：写模型设计

作业 4：写评估指标

作业 5：写最终输出报告模板

16. Day 7 验收标准

17. 第一周最终总结

18. Day 8 预告

关系图谱

目录