量化机器学习学习路径 (MLQT)

Machine Learning for Quantitative Trading — 从零构建量化机器学习知识体系

学习路径总览

① 机器学习基础 ──→ ② 特征工程 ──→ ③ 树模型实战 ──→ ④ 深度学习模型 ──→ ⑤ 回测方法论
   (概念与原理)      (特征构造)      (LightGBM/XGB)    (LSTM/PyTorch)    (策略验证)

模块说明

序号	模块	说明	建议时间	文件数
①	机器学习基础	过拟合、正则化、IC/ICIR、Walk-Forward、早停、标签处理等核心概念	8-10h	1 综合文档
②	特征工程	特征构造、时序特征、横截面特征、特征选择与评估、自动化框架	6-8h	1 综合文档
③	树模型实战	GBDT/XGBoost/LightGBM/CatBoost 原理、训练调优、评估、SHAP	6-8h	7 文件
④	深度学习模型	RNN/LSTM/Attention 原理、PyTorch 框架、时序数据处理、模型训练优化	8-10h	7 文件
⑤	回测方法论	投资组合构建、交易成本、绩效评估、回测陷阱与防范	7-9h	7 文件

总计：约 35-45 小时，建议 4-6 周完成。

模块一：机器学习基础

量化 ML 的地基 —— 理解核心概念才能避免常见的坑

文档

文件	说明
机器学习常见概念	过拟合与解决方案（13种）、Walk-Forward 验证、IC/ICIR/OOS IC、IC 衰减、单调性检验、统计显著性、预测方差、数据分布偏移、前视偏差、模型集成、PSI 等
如何评估模型	模型评估完整指南：IC 阈值标准、过拟合判断、最佳实践
早停在验证集提前触发	早停提前触发的诊断与解决方案，含 3 个实战案例

核心知识点

过拟合的本质与 13 种解决方案（正则化、Dropout、标签平滑、特征选择等）
时序数据验证方法（Walk-Forward、滚动窗口、扩展窗口）
IC / Rank IC / ICIR 评估体系
样本外（OOS）IC 的意义与判断标准
IC 衰减分析与应对策略

模块二：特征工程

特征决定了模型的上限 —— 好的特征工程比模型调优更重要

文档

文件	说明
特征构造	从原始数据到可用特征的完整流程

核心知识点

四层特征架构（原始数据 → 基础特征 → 时序特征 → 横截面特征）
价格衍生特征、量价特征、波动率特征、财务特征
技术指标（MACD、RSI、布林带、ATR）
高级特征（滚动回归斜率、FFT 频域特征、GARCH 波动率、微观结构特征）
横截面标准化与中性化
特征选择（Filter / Wrapper / Embedded）
特征评估（IC 分析、分层测试、IC 衰减）
特征正交化与动态因子
自动化特征构造框架

模块三：树模型实战

量化 ML 的主力武器 —— 表格数据场景下树模型仍然是首选

文件导航

文件	说明	建议时间
index	模块概述与学习路径	—
01-梯度提升原理	决策树 → GBDT → XGBoost → LightGBM → CatBoost 演进	1.5h
02-时序数据划分	因果性约束、Walk-Forward、Purging & Embargo	1h
03-模型训练与调优	超参数详解、网格/随机/贝叶斯优化（Optuna）	1.5h
04-评估指标详解	IC、Rank IC、ICIR、分层回测、IC 衰减	1h
05-特征重要性分析	Split/Gain 重要性、排列重要性、SHAP 值	1h
06-实战案例	端到端：模拟数据 → 特征工程 → 训练 → 评估 → 滚动回测	1.5h

核心知识点

Boosting 思想演进与数学原理
LightGBM 三大创新（GOSS、EFB、Leaf-wise）
时序因果性约束与数据泄漏防范
Optuna 贝叶斯超参数优化
SHAP 可解释性分析

模块四：深度学习模型

用神经网络捕捉时序模式 —— 适合特征间存在复杂交互的场景

文件导航

文件	说明	建议时间
index	模块概述与学习路径	—
01-深度学习基础	神经网络、激活函数、RNN → LSTM → GRU → Transformer	1.5h
02-PyTorch框架入门	Tensor、Autograd、nn.Module、Dataset、DataLoader	2h
03-LSTM模型构建	单层/多层/双向 LSTM、LSTM+Attention	1.5h
04-时序数据处理	滑动窗口、标准化、Dataset 封装、数据泄漏防范	1.5h
05-模型训练优化	训练循环、损失函数、优化器、学习率调度、正则化、混合精度	2h
06-实战案例	端到端：模拟数据 → LSTM+Attention → 训练 → 评估 → 滚动回测	2h

核心知识点

LSTM 门机制（遗忘门、输入门、输出门）与数学推导
PyTorch 完整工作流
滑动窗口与因果性约束
IC-based Loss、学习率 Warmup + Cosine Decay
混合精度训练与梯度累积
LSTM vs 树模型对比

模块五：回测方法论

不做回测就上实盘等于赌博 —— 学会正确地怀疑你的策略

文件导航

文件	说明	建议时间
index	模块概述与学习路径	—
01-回测理论	回测目的、完整流程、极简回测示例	1h
02-投资组合构建	等权、Top-K、IC加权、均值方差优化、风险平价	1.5h
03-交易成本模型	佣金、印花税、滑点、冲击成本、T+1 限制	1.5h
04-绩效评估指标	Sharpe、IR、Sortino、Calmar、MaxDD、VaR、CVaR	1.5h
05-回测陷阱与防范	过拟合、前视偏差、幸存者偏差、数据窥探、流动性	1.5h
06-实战案例	端到端：信号生成 → 组合构建 → 成本模拟 → 绩效评估	1.5h

核心知识点

5 种组合构建方法对比
交易成本的完整建模（佣金 + 印花税 + 滑点 + 冲击成本）
绩效评估指标体系（收益 / 风险 / 风险调整收益 / 交易指标）
7 大回测陷阱与防范清单
A 股特有约束（T+1、涨跌停、印花税）

学习建议

前置知识

Python 编程（pandas、numpy 基础）
基础统计学（均值、方差、相关系数、假设检验）
基础金融知识（股票、收益率、夏普比率）

学习策略

按顺序学习：模块间有依赖关系，建议按 ① → ② → ③ → ④ → ⑤ 的顺序
代码一定要跑：每个模块都有完整可运行的代码，跟着敲一遍比看三遍有用
用真实数据练手：学完模块②后，可以用 A 股日频数据替换模拟数据进行练习
模块③和④选一个深入：树模型和深度学习选一个作为主力模型深入掌握
模块⑤是安全网：回测方法论能帮你避免”回测很美、实盘亏钱”的陷阱

量化 ML 心法

特征 > 模型 > 调参

花 60% 的时间在特征工程上

花 30% 的时间在模型选择和训练上

花 10% 的时间在超参数调优上

永远用样本外数据做最终评估

对回测结果保持怀疑

技术栈

类别	工具
数据处理	pandas, numpy
树模型	LightGBM, XGBoost, CatBoost
深度学习	PyTorch
超参数优化	Optuna
模型解释	SHAP
可视化	matplotlib, seaborn
优化求解	scipy.optimize

MindCarver

探索

index

量化机器学习学习路径 (MLQT)

学习路径总览

模块说明

模块一：机器学习基础

文档

核心知识点

模块二：特征工程

文档

核心知识点

模块三：树模型实战

文件导航

核心知识点

模块四：深度学习模型

文件导航

核心知识点

模块五：回测方法论

文件导航

核心知识点

学习建议

前置知识

学习策略

量化 ML 心法

技术栈