量化机器学习学习路径 (MLQT)
Machine Learning for Quantitative Trading — 从零构建量化机器学习知识体系
学习路径总览
① 机器学习基础 ──→ ② 特征工程 ──→ ③ 树模型实战 ──→ ④ 深度学习模型 ──→ ⑤ 回测方法论
(概念与原理) (特征构造) (LightGBM/XGB) (LSTM/PyTorch) (策略验证)
模块说明
| 序号 | 模块 | 说明 | 建议时间 | 文件数 |
|---|---|---|---|---|
| ① | 机器学习基础 | 过拟合、正则化、IC/ICIR、Walk-Forward、早停、标签处理等核心概念 | 8-10h | 1 综合文档 |
| ② | 特征工程 | 特征构造、时序特征、横截面特征、特征选择与评估、自动化框架 | 6-8h | 1 综合文档 |
| ③ | 树模型实战 | GBDT/XGBoost/LightGBM/CatBoost 原理、训练调优、评估、SHAP | 6-8h | 7 文件 |
| ④ | 深度学习模型 | RNN/LSTM/Attention 原理、PyTorch 框架、时序数据处理、模型训练优化 | 8-10h | 7 文件 |
| ⑤ | 回测方法论 | 投资组合构建、交易成本、绩效评估、回测陷阱与防范 | 7-9h | 7 文件 |
总计:约 35-45 小时,建议 4-6 周完成。
模块一:机器学习基础
量化 ML 的地基 —— 理解核心概念才能避免常见的坑
文档
| 文件 | 说明 |
|---|---|
| 机器学习常见概念 | 过拟合与解决方案(13种)、Walk-Forward 验证、IC/ICIR/OOS IC、IC 衰减、单调性检验、统计显著性、预测方差、数据分布偏移、前视偏差、模型集成、PSI 等 |
| 如何评估模型 | 模型评估完整指南:IC 阈值标准、过拟合判断、最佳实践 |
| 早停在验证集提前触发 | 早停提前触发的诊断与解决方案,含 3 个实战案例 |
核心知识点
- 过拟合的本质与 13 种解决方案(正则化、Dropout、标签平滑、特征选择等)
- 时序数据验证方法(Walk-Forward、滚动窗口、扩展窗口)
- IC / Rank IC / ICIR 评估体系
- 样本外(OOS)IC 的意义与判断标准
- IC 衰减分析与应对策略
模块二:特征工程
特征决定了模型的上限 —— 好的特征工程比模型调优更重要
文档
| 文件 | 说明 |
|---|---|
| 特征构造 | 从原始数据到可用特征的完整流程 |
核心知识点
- 四层特征架构(原始数据 → 基础特征 → 时序特征 → 横截面特征)
- 价格衍生特征、量价特征、波动率特征、财务特征
- 技术指标(MACD、RSI、布林带、ATR)
- 高级特征(滚动回归斜率、FFT 频域特征、GARCH 波动率、微观结构特征)
- 横截面标准化与中性化
- 特征选择(Filter / Wrapper / Embedded)
- 特征评估(IC 分析、分层测试、IC 衰减)
- 特征正交化与动态因子
- 自动化特征构造框架
模块三:树模型实战
量化 ML 的主力武器 —— 表格数据场景下树模型仍然是首选
文件导航
| 文件 | 说明 | 建议时间 |
|---|---|---|
| index | 模块概述与学习路径 | — |
| 01-梯度提升原理 | 决策树 → GBDT → XGBoost → LightGBM → CatBoost 演进 | 1.5h |
| 02-时序数据划分 | 因果性约束、Walk-Forward、Purging & Embargo | 1h |
| 03-模型训练与调优 | 超参数详解、网格/随机/贝叶斯优化(Optuna) | 1.5h |
| 04-评估指标详解 | IC、Rank IC、ICIR、分层回测、IC 衰减 | 1h |
| 05-特征重要性分析 | Split/Gain 重要性、排列重要性、SHAP 值 | 1h |
| 06-实战案例 | 端到端:模拟数据 → 特征工程 → 训练 → 评估 → 滚动回测 | 1.5h |
核心知识点
- Boosting 思想演进与数学原理
- LightGBM 三大创新(GOSS、EFB、Leaf-wise)
- 时序因果性约束与数据泄漏防范
- Optuna 贝叶斯超参数优化
- SHAP 可解释性分析
模块四:深度学习模型
用神经网络捕捉时序模式 —— 适合特征间存在复杂交互的场景
文件导航
| 文件 | 说明 | 建议时间 |
|---|---|---|
| index | 模块概述与学习路径 | — |
| 01-深度学习基础 | 神经网络、激活函数、RNN → LSTM → GRU → Transformer | 1.5h |
| 02-PyTorch框架入门 | Tensor、Autograd、nn.Module、Dataset、DataLoader | 2h |
| 03-LSTM模型构建 | 单层/多层/双向 LSTM、LSTM+Attention | 1.5h |
| 04-时序数据处理 | 滑动窗口、标准化、Dataset 封装、数据泄漏防范 | 1.5h |
| 05-模型训练优化 | 训练循环、损失函数、优化器、学习率调度、正则化、混合精度 | 2h |
| 06-实战案例 | 端到端:模拟数据 → LSTM+Attention → 训练 → 评估 → 滚动回测 | 2h |
核心知识点
- LSTM 门机制(遗忘门、输入门、输出门)与数学推导
- PyTorch 完整工作流
- 滑动窗口与因果性约束
- IC-based Loss、学习率 Warmup + Cosine Decay
- 混合精度训练与梯度累积
- LSTM vs 树模型对比
模块五:回测方法论
不做回测就上实盘等于赌博 —— 学会正确地怀疑你的策略
文件导航
| 文件 | 说明 | 建议时间 |
|---|---|---|
| index | 模块概述与学习路径 | — |
| 01-回测理论 | 回测目的、完整流程、极简回测示例 | 1h |
| 02-投资组合构建 | 等权、Top-K、IC加权、均值方差优化、风险平价 | 1.5h |
| 03-交易成本模型 | 佣金、印花税、滑点、冲击成本、T+1 限制 | 1.5h |
| 04-绩效评估指标 | Sharpe、IR、Sortino、Calmar、MaxDD、VaR、CVaR | 1.5h |
| 05-回测陷阱与防范 | 过拟合、前视偏差、幸存者偏差、数据窥探、流动性 | 1.5h |
| 06-实战案例 | 端到端:信号生成 → 组合构建 → 成本模拟 → 绩效评估 | 1.5h |
核心知识点
- 5 种组合构建方法对比
- 交易成本的完整建模(佣金 + 印花税 + 滑点 + 冲击成本)
- 绩效评估指标体系(收益 / 风险 / 风险调整收益 / 交易指标)
- 7 大回测陷阱与防范清单
- A 股特有约束(T+1、涨跌停、印花税)
学习建议
前置知识
- Python 编程(pandas、numpy 基础)
- 基础统计学(均值、方差、相关系数、假设检验)
- 基础金融知识(股票、收益率、夏普比率)
学习策略
- 按顺序学习:模块间有依赖关系,建议按 ① → ② → ③ → ④ → ⑤ 的顺序
- 代码一定要跑:每个模块都有完整可运行的代码,跟着敲一遍比看三遍有用
- 用真实数据练手:学完模块②后,可以用 A 股日频数据替换模拟数据进行练习
- 模块③和④选一个深入:树模型和深度学习选一个作为主力模型深入掌握
- 模块⑤是安全网:回测方法论能帮你避免”回测很美、实盘亏钱”的陷阱
量化 ML 心法
特征 > 模型 > 调参
- 花 60% 的时间在特征工程上
- 花 30% 的时间在模型选择和训练上
- 花 10% 的时间在超参数调优上
- 永远用样本外数据做最终评估
- 对回测结果保持怀疑
技术栈
| 类别 | 工具 |
|---|---|
| 数据处理 | pandas, numpy |
| 树模型 | LightGBM, XGBoost, CatBoost |
| 深度学习 | PyTorch |
| 超参数优化 | Optuna |
| 模型解释 | SHAP |
| 可视化 | matplotlib, seaborn |
| 优化求解 | scipy.optimize |