Day 7:第一周复盘 —— 从“懂模型”升级到“能设计半导体 AI 项目”

Day 7 不学新模型。

今天的目标是把前 6 天全部串起来,让你形成一个完整的判断能力:

当客户说“我想用 AI 提高外延片良率”,你不能马上说用大模型、用深度学习、用 Agent。
你要先判断:这是分类问题、回归问题、异常检测问题,还是一个组合型质量风险系统。


1. 第一周你到底学了什么?

第一周其实不是在教你机器学习公式,而是在训练你建立一套 AI 应用分析框架。

你已经学了 6 个核心模块:

Day 1:
把新磊外延片业务链路拆成 AI 场景
 
Day 2:
理解 X、y、训练集、测试集、预测时间点、数据泄露
 
Day 3:
分类问题:Pass / Fail 质量风险预测
 
Day 4:
回归问题:预测 PL、XRD、厚度、缺陷数量等关键指标
 
Day 5:
异常检测:没有 Fail 标签时,先识别异常 run / 异常设备 / 工艺漂移
 
Day 6:
把分类、回归、异常检测组合成一个 Mini 外延片质量风险评分系统

你现在要从“知道这些概念”变成“能拿这些概念设计方案”。


2. 第一周最重要的一张总图

你要把下面这张图记住。

半导体 AI 项目不是从模型开始。
 
正确顺序是:
 
业务问题

预测时间点

数据来源

一行数据代表什么

X 是什么

y 是什么

是否有标签

选择任务类型

选择模型

评估指标

风险解释

业务动作

很多人做 AI 项目失败,是因为他直接从这里开始:

我要用什么模型?

但真正应该从这里开始:

这个业务问题到底要在什么时间点,基于哪些已知信息,预测什么结果?

3. 你现在应该能看懂这 6 类问题

问题 1:这批外延片会不会不合格?

这是:

分类问题

典型模型:

CatBoostClassifier
LightGBMClassifier
XGBoostClassifier
RandomForestClassifier
LogisticRegression

输出:

Fail 概率
风险等级

业务动作:

高风险 run 进入工程师复核列表

问题 2:这批片的 PL 强度是多少?

这是:

回归问题

典型模型:

CatBoostRegressor
LightGBMRegressor
XGBoostRegressor
RandomForestRegressor
LinearRegression

输出:

预测 PL 强度
预测 XRD FWHM
预测厚度均匀性
预测缺陷数量

业务动作:

如果预测值超过规格线,则优先复查对应检测项

问题 3:这次 MBE 生长过程是否异常?

这是:

异常检测问题

典型模型:

Z-score
IQR
Isolation Forest
One-Class SVM
AutoEncoder
Control Chart
EWMA

输出:

anomaly_score
异常等级
异常字段

业务动作:

异常 run 优先检测;
异常设备进入维护排查;
异常 recipe 进入工艺复核。

问题 4:这个 recipe 最近是不是漂移了?

这是:

漂移检测 / 趋势检测问题

典型方法:

移动平均
EWMA
Control Chart
PSI
KS Test
趋势分析

输出:

是否漂移
漂移方向
漂移开始时间

业务动作:

暂停自动放行;
复查最近几炉;
对比设备、材料、维护记录。

问题 5:外延片/晶圆图有没有缺陷?

这是:

图像分类 / 目标检测 / 图像分割问题

典型模型:

CNN
ResNet
EfficientNet
YOLO
U-Net
Vision Transformer
AutoEncoder
PatchCore

输出:

缺陷类型
缺陷位置
缺陷面积
风险等级

业务动作:

减少人工看图;
提高检测一致性;
沉淀缺陷模式和工艺原因之间的关系。

问题 6:客户投诉后怎么找原因?

这是:

RAG + Agent + 根因分析问题

典型技术:

文档解析
向量数据库
RAG
知识图谱
LLM Agent
工具调用
历史相似案例检索

输出:

相关批次
相关检测报告
相似历史案例
可能根因
建议复查项
客户回复草稿

业务动作:

缩短工程师排查时间;
提高客户响应速度;
沉淀专家经验。

4. 第一周最核心的 3 个模型思维

你现在要形成 3 个基本判断。


4.1 有明确 Pass / Fail 标签,用分类

条件:

历史数据里有足够多 Pass 样本
也有足够多 Fail 样本
标签比较稳定
预测时间点清楚

就可以做:

Pass / Fail 分类模型

目标不是自动判废,而是:

输出 Fail 风险概率
让工程师优先复核高风险批次

你要重点看:

Fail Recall
Precision
PR-AUC
Top-K Recall

不要只看:

Accuracy

4.2 有连续质量指标,用回归

条件:

有 PL、XRD、厚度、缺陷数量、电学指标等连续数值
但最终 Pass / Fail 标签不一定多

可以先做:

关键质量指标回归预测

比如:

预测 PL intensity
预测 XRD FWHM
预测 thickness_uniformity
预测 surface_defect_count

然后结合规格线转成风险:

PL < 70 → PL 风险
XRD FWHM > 55 → XRD 风险
厚度均匀性 > 5% → 厚度风险

这比单纯 Pass / Fail 更容易解释。


4.3 没有足够标签,用异常检测

条件:

没有足够 Fail 标签
但有大量正常生产数据
有设备参数、工艺参数、过程曲线、报警日志

就先做:

异常检测

目标不是直接预测 Fail,而是判断:

当前 run 是否不像历史正常 run
当前设备是否不像历史健康状态
当前 recipe 是否开始漂移

这在真实半导体项目早期非常有价值。


5. 第一周最重要的一个产品原型

你第一个可讲给客户的产品不是“一个模型”,而是:

外延片质量风险评分系统

完整结构如下:

输入:
MBE run 级工艺参数
设备状态
recipe 信息
衬底批次
源材料状态
 
模型层:
1. 异常检测模型
2. Pass / Fail 分类模型
3. 关键指标回归模型
4. 规则评分器
 
输出:
Fail 风险概率
异常分数
预测 PL
预测 XRD
预测厚度均匀性
综合风险等级
建议复查动作

你要记住一句话:

真正能落地的不是模型,而是“风险评分 + 原因解释 + 业务动作”。


6. 用一个完整案例复盘

假设客户给你一条新 run 数据:

Run ID:RUN2026-0018
产品:HEMT
Recipe:R-HEMT-017
设备:MBE-03
 
actual_temp_std = 3.9
pressure_std_ratio = 0.16
flux_std = 0.08
alarm_count = 3
days_since_maintenance = 98
source_usage_hours = 840

你现在不能只说:

这批可能有问题。

你应该用第一周学到的框架这样拆。


第一步:判断预测时间点

当前是:

MBE 生长完成后,检测前

所以可以用:

生长过程统计特征
设备状态
recipe
衬底批次
源材料状态

不能用:

PL 检测结果
XRD 检测结果
最终 QC
客户反馈

第二步:做异常检测

异常检测输出:

anomaly_score = 0.84

解释:

当前 run 的温度波动、压力波动、报警次数、源材料使用时长组合起来,明显偏离历史正常 run。

业务含义:

这次生长过程不像正常状态,应该优先复核。

第三步:做分类预测

分类模型输出:

Fail probability = 0.63

业务含义:

模型认为这次 run 的 Fail 风险偏高。

但你不能说:

它一定是 Fail。

你应该说:

它应该进入工程师复核队列。

第四步:做回归预测

回归模型输出:

预测 PL intensity = 68.2
规格线:>= 70
 
预测 XRD FWHM = 52.5
规格线:<= 55
 
预测 thickness_uniformity = 4.8%
规格线:<= 5%

业务解释:

PL 有明显风险;
XRD 目前预测正常;
厚度均匀性接近上限,需要关注。

第五步:生成综合风险

结合:

异常分数高
Fail 概率高
PL 预测低于规格线
厚度均匀性接近上限

综合输出:

风险等级:高风险

建议动作:

1. 优先做 PL mapping 复查
2. 复查温控曲线
3. 复查真空/压力日志
4. 检查源材料使用状态
5. 暂缓直接放行,进入工程师复核

这就是一个完整的 AI 应用输出。


7. 你现在应该怎么跟老板解释?

你不要这样讲:

我们用 CatBoost、LightGBM、Isolation Forest、SHAP 做一个模型。

老板不关心这些。

你要这样讲:

第一阶段我们不直接做自动判废,而是做一个外延片质量风险评分系统。
 
系统会在 MBE 生长完成后、检测前,根据工艺参数、设备状态、recipe、衬底和源材料信息,给每次 run 输出质量风险等级。
 
如果某次 run 的温度波动、压力波动、报警次数、源材料状态和历史正常状态明显不同,系统会标记为高风险,并建议工程师优先复查 PL、XRD 或表面检测。
 
这样做的价值是:
第一,提前发现高风险批次;
第二,减少工程师盲目排查;
第三,逐步沉淀质量问题和工艺参数之间的关系;
第四,等数据积累足够后,再升级到良率预测和 recipe 推荐。

这段话你可以直接拿去讲。


8. 你现在应该怎么跟工程师解释?

工程师不一定信 AI,所以不能说:

模型判断这批片有问题。

你要说:

模型不是替代你的判断,而是帮你把历史数据里的异常模式提前排出来。
 
它会告诉你:
这次 run 哪些参数偏离了同 recipe 的历史正常范围;
哪些设备状态可能异常;
预测哪些质量指标可能接近规格线;
建议你优先看哪些检测项。
 
最终是否放行,仍然由工程师判断。

这句话很重要。

因为工业 AI 早期最怕让工程师觉得:

AI 要替我做决定。

正确定位应该是:

AI 是质量工程师的风险雷达。

9. 第一周最容易犯的 8 个错误

错误 1:一上来就问用什么模型

正确做法:

先定义预测时间点、X、y、业务动作。

错误 2:把检测后字段当输入

比如你在检测前预测质量,却把:

PL
XRD
final_qc_result
engineer_comment

放进 X。

这就是数据泄露。


错误 3:只看 Accuracy

质量异常通常是少数样本。

模型全部预测 Pass,Accuracy 也可能很高,但业务上完全没用。

应该重点看:

Fail Recall
Top-K Recall
Precision
PR-AUC

错误 4:没有 Fail 标签还硬做分类

如果 Fail 样本太少,不要硬做 Pass / Fail 分类。

先做:

异常检测
质量指标回归
工程师风险等级标注

错误 5:所有产品和 recipe 混在一起建模

HEMT、HBT、VCSEL、APD 的工艺逻辑不同。

同一个温度值,在不同 recipe 里意义可能完全不同。

所以要考虑:

product_type
recipe_id
相对 recipe 偏差
分组建模

错误 6:只输出分数,没有解释

模型输出:

Fail probability = 0.68

还不够。

必须输出:

为什么高风险?
哪些参数异常?
建议复查什么?

错误 7:试图第一版就自动闭环控制

比如直接让模型推荐 recipe,甚至自动调机台。

这太早了。

正确路线是:

先风险识别
再指标预测
再异常解释
再工程师复核
最后才是参数优化

错误 8:没有工程师反馈闭环

模型上线后必须记录:

工程师是否认可
是否误报
是否漏报
最终检测结果如何
客户是否反馈

没有反馈闭环,模型无法持续变好。


10. 第一周能力验收测试

你现在可以自测一下。


测试 1:判断任务类型

问题 A

根据 MBE 生长过程参数预测最终 Pass / Fail。

答案:

分类问题

问题 B

根据工艺参数预测 PL intensity。

答案:

回归问题

问题 C

只有正常 run 数据,想发现当前 run 是否不像正常生产状态。

答案:

异常检测问题

问题 D

同一个 recipe 最近 30 炉 XRD FWHM 慢慢升高。

答案:

漂移检测 / 趋势检测问题

问题 E

根据 wafer map 判断缺陷类型。

答案:

图像分类问题

11. 测试 2:判断字段能不能用

预测时间点:

MBE 生长完成后,PL/XRD 检测前

字段:

recipe_id
equipment_id
growth_temp_std
pressure_std
alarm_count
pl_intensity
xrd_fwhm
final_qc_result
customer_complaint
days_since_maintenance
source_usage_hours

可以用:

recipe_id
equipment_id
growth_temp_std
pressure_std
alarm_count
days_since_maintenance
source_usage_hours

不能用:

pl_intensity
xrd_fwhm
final_qc_result
customer_complaint

原因:

这些字段在检测后、最终判定后或出货后才知道。

12. 测试 3:判断业务指标

假设测试集中:

真实 Fail = 100 批
模型报警 = 150 批
报警中真实 Fail = 70 批

那么:

TP = 70
FP = 80
FN = 30

Recall:

70 / 100 = 70%

Precision:

70 / 150 = 46.7%

业务解释:

模型抓出了 70% 的异常批次;
但报警批次里只有约 47% 真实异常;
这可能适合作为工程师复核系统,但不适合自动判废。

这就是你要会讲的。


13. 你现在应该形成的“项目落地顺序”

如果你未来真的去做新磊这种项目,不要一上来就做大系统。

第一阶段应该这样走:

第 1 步:业务访谈
弄清楚外延片生产流程、检测流程、质量判定规则。
 
第 2 步:数据盘点
有哪些数据?在哪些系统?字段含义是什么?能不能按 run / wafer / lot 串起来?
 
第 3 步:定义预测时间点
生长前、生长中、生长后检测前、检测后出货前,各自能用的数据不同。
 
第 4 步:定义第一版任务
建议先做 MBE 生长后、检测前的 run 级质量风险评分。
 
第 5 步:数据审计
检查缺失值、异常值、标签分布、时间范围、产品类型、recipe 数量。
 
第 6 步:建立 v0.1 模型
异常检测 + 分类 + 回归 + 规则评分。
 
第 7 步:离线回测
看历史上高风险批次是否能被提前识别。
 
第 8 步:工程师复核
让工程师看 Top 50 高风险 run,判断模型解释是否合理。
 
第 9 步:影子模式试运行
模型只打分,不干预生产,观察 2~4 周。
 
第 10 步:小范围上线
先做提醒系统,不做自动判废系统。

14. 第一周最终项目文档模板

你现在可以写一份迷你方案文档。

标题:

新磊半导体外延片质量风险评分系统 v0.1

结构如下:

1. 项目背景
 
2. 业务目标
 
3. 预测时间点
 
4. 数据输入
 
5. 不能使用的数据
 
6. 模型设计
   6.1 异常检测模型
   6.2 Pass / Fail 分类模型
   6.3 关键指标回归模型
   6.4 规则评分器
 
7. 输出结果
 
8. 风险等级定义
 
9. 工程师建议动作
 
10. 评估指标
 
11. 试点流程
 
12. 后续升级方向

这个模板非常重要。它比你单纯会写模型代码更值钱。


15. 第一周最终作业

今天作业不是写代码,而是写一份项目方案。


作业 1:写项目背景

模板:

新磊半导体的核心业务是化合物半导体外延片制造,MBE 生长过程对温度、压力、束流、源材料状态和设备稳定性非常敏感。
 
传统质量判断主要依赖检测结果和工程师经验,存在问题发现滞后、排查效率低、经验难沉淀的问题。
 
因此,第一阶段可以建设一个外延片质量风险评分系统,在 MBE 生长完成后、检测前,根据工艺和设备数据提前识别高风险 run,辅助工程师优先检测和复核。

作业 2:写第一版任务定义

模板:

任务名称:
MBE 生长后外延片质量风险评分
 
预测时间点:
MBE 生长完成后,PL/XRD/AFM/表面检测前
 
一行数据代表:
一次 MBE run
 
输入 X:
recipe_id
equipment_id
chamber_id
substrate_batch
source_material_batch
growth_temp_mean
growth_temp_std
pressure_mean
pressure_std
flux_mean
flux_std
alarm_count
days_since_maintenance
source_usage_hours
 
输出:
Fail 风险概率
异常分数
预测 PL
预测 XRD
预测厚度均匀性
综合风险等级
建议动作
 
不能使用:
PL 检测结果
XRD 检测结果
AFM 结果
表面检测结果
最终 QC
客户反馈
工程师最终评语

作业 3:写模型设计

模板:

模型 1:异常检测模型
方法:Isolation Forest + Z-score
作用:识别当前 run 是否偏离历史正常工艺状态
 
模型 2:Pass / Fail 分类模型
方法:CatBoost / LightGBM
作用:预测最终 Fail 风险概率
 
模型 3:关键指标回归模型
方法:CatBoostRegressor / LightGBMRegressor
作用:预测 PL、XRD、厚度均匀性等关键质量指标
 
模型 4:规则评分器
方法:模型结果 + 规格线 + 工程经验规则
作用:生成综合风险等级和建议动作

作业 4:写评估指标

模板:

分类模型:
重点看 Fail Recall、Precision、PR-AUC、Top-K Recall,不以 Accuracy 作为唯一指标。
 
回归模型:
重点看 MAE、RMSE、规格线附近预测误差、超规格识别能力。
 
异常检测:
重点看 Top 异常 run 是否被工程师认可,异常分数是否能提前发现设备/工艺漂移。
 
业务指标:
高风险 run 中真实异常占比;
工程师复核效率提升;
异常批次提前发现率;
误报成本是否可接受;
是否减少客户质量风险。

作业 5:写最终输出报告模板

模板:

Run ID:
产品类型:
Recipe:
设备:
 
综合风险等级:
 
模型输出:
- Fail 风险概率:
- 异常分数:
- 预测 PL:
- 预测 XRD FWHM:
- 预测厚度均匀性:
 
主要风险原因:
1.
2.
3.
 
建议动作:
1.
2.
3.

16. Day 7 验收标准

今天学完,第一周就算完成。

你合格的标准是:

1. 能把外延片质量问题拆成分类、回归、异常检测
2. 能定义预测时间点
3. 能说明哪些字段能用,哪些字段不能用
4. 能解释什么是数据泄露
5. 能说清楚为什么不能只看 Accuracy
6. 能解释 Fail Recall 和 Top-K Recall 的业务意义
7. 能说明异常检测为什么适合无标签早期场景
8. 能把多个模型组合成质量风险评分系统
9. 能把模型输出转成工程师建议动作
10. 能写出一个 v0.1 项目方案

17. 第一周最终总结

你第一周真正学到的是:

机器学习不是先选模型,而是先把业务问题定义成一个可预测、可验证、可解释、可行动的问题。

对于新磊这种外延片企业,第一阶段最合适的 AI 项目不是大模型聊天机器人,也不是一上来做自动调参,而是:

MBE 生长后、检测前的外延片质量风险评分系统。

它由 4 部分组成:

异常检测:
发现不像正常工艺状态的 run
 
分类模型:
预测 Pass / Fail 风险
 
回归模型:
预测 PL、XRD、厚度、缺陷等关键指标
 
规则评分器:
结合规格线和工程经验生成风险等级与建议动作

最终目标不是替代工程师,而是:

让工程师更早看到高风险批次;
更快知道该查什么;
更系统地沉淀质量问题和工艺参数之间的关系。

18. Day 8 预告

从 Day 8 开始,进入第二周:

表格数据建模:质量预测 / 良率预测

接下来会更偏实战:

数据清洗
缺失值处理
类别变量处理
特征工程
LightGBM / CatBoost 建模
类别不平衡处理
SHAP 解释
模型报告生成

Day 8 的主题是:

制造业数据清洗:拿到一张外延片数据表后,第一眼应该检查什么?

第二周开始,你会逐渐进入真正的代码和数据处理。