量化机器学习学习路径 (MLQT)

Machine Learning for Quantitative Trading — 从零构建量化机器学习知识体系


学习路径总览

① 机器学习基础 ──→ ② 特征工程 ──→ ③ 树模型实战 ──→ ④ 深度学习模型 ──→ ⑤ 回测方法论
   (概念与原理)      (特征构造)      (LightGBM/XGB)    (LSTM/PyTorch)    (策略验证)

模块说明

序号模块说明建议时间文件数
机器学习基础过拟合、正则化、IC/ICIR、Walk-Forward、早停、标签处理等核心概念8-10h1 综合文档
特征工程特征构造、时序特征、横截面特征、特征选择与评估、自动化框架6-8h1 综合文档
树模型实战GBDT/XGBoost/LightGBM/CatBoost 原理、训练调优、评估、SHAP6-8h7 文件
深度学习模型RNN/LSTM/Attention 原理、PyTorch 框架、时序数据处理、模型训练优化8-10h7 文件
回测方法论投资组合构建、交易成本、绩效评估、回测陷阱与防范7-9h7 文件

总计:约 35-45 小时,建议 4-6 周完成。


模块一:机器学习基础

量化 ML 的地基 —— 理解核心概念才能避免常见的坑

文档

文件说明
机器学习常见概念过拟合与解决方案(13种)、Walk-Forward 验证、IC/ICIR/OOS IC、IC 衰减、单调性检验、统计显著性、预测方差、数据分布偏移、前视偏差、模型集成、PSI 等
如何评估模型模型评估完整指南:IC 阈值标准、过拟合判断、最佳实践
早停在验证集提前触发早停提前触发的诊断与解决方案,含 3 个实战案例

核心知识点

  • 过拟合的本质与 13 种解决方案(正则化、Dropout、标签平滑、特征选择等)
  • 时序数据验证方法(Walk-Forward、滚动窗口、扩展窗口)
  • IC / Rank IC / ICIR 评估体系
  • 样本外(OOS)IC 的意义与判断标准
  • IC 衰减分析与应对策略

模块二:特征工程

特征决定了模型的上限 —— 好的特征工程比模型调优更重要

文档

文件说明
特征构造从原始数据到可用特征的完整流程

核心知识点

  • 四层特征架构(原始数据 → 基础特征 → 时序特征 → 横截面特征)
  • 价格衍生特征、量价特征、波动率特征、财务特征
  • 技术指标(MACD、RSI、布林带、ATR)
  • 高级特征(滚动回归斜率、FFT 频域特征、GARCH 波动率、微观结构特征)
  • 横截面标准化与中性化
  • 特征选择(Filter / Wrapper / Embedded)
  • 特征评估(IC 分析、分层测试、IC 衰减)
  • 特征正交化与动态因子
  • 自动化特征构造框架

模块三:树模型实战

量化 ML 的主力武器 —— 表格数据场景下树模型仍然是首选

文件导航

文件说明建议时间
index模块概述与学习路径
01-梯度提升原理决策树 → GBDT → XGBoost → LightGBM → CatBoost 演进1.5h
02-时序数据划分因果性约束、Walk-Forward、Purging & Embargo1h
03-模型训练与调优超参数详解、网格/随机/贝叶斯优化(Optuna)1.5h
04-评估指标详解IC、Rank IC、ICIR、分层回测、IC 衰减1h
05-特征重要性分析Split/Gain 重要性、排列重要性、SHAP 值1h
06-实战案例端到端:模拟数据 → 特征工程 → 训练 → 评估 → 滚动回测1.5h

核心知识点

  • Boosting 思想演进与数学原理
  • LightGBM 三大创新(GOSS、EFB、Leaf-wise)
  • 时序因果性约束与数据泄漏防范
  • Optuna 贝叶斯超参数优化
  • SHAP 可解释性分析

模块四:深度学习模型

用神经网络捕捉时序模式 —— 适合特征间存在复杂交互的场景

文件导航

文件说明建议时间
index模块概述与学习路径
01-深度学习基础神经网络、激活函数、RNN → LSTM → GRU → Transformer1.5h
02-PyTorch框架入门Tensor、Autograd、nn.Module、Dataset、DataLoader2h
03-LSTM模型构建单层/多层/双向 LSTM、LSTM+Attention1.5h
04-时序数据处理滑动窗口、标准化、Dataset 封装、数据泄漏防范1.5h
05-模型训练优化训练循环、损失函数、优化器、学习率调度、正则化、混合精度2h
06-实战案例端到端:模拟数据 → LSTM+Attention → 训练 → 评估 → 滚动回测2h

核心知识点

  • LSTM 门机制(遗忘门、输入门、输出门)与数学推导
  • PyTorch 完整工作流
  • 滑动窗口与因果性约束
  • IC-based Loss、学习率 Warmup + Cosine Decay
  • 混合精度训练与梯度累积
  • LSTM vs 树模型对比

模块五:回测方法论

不做回测就上实盘等于赌博 —— 学会正确地怀疑你的策略

文件导航

文件说明建议时间
index模块概述与学习路径
01-回测理论回测目的、完整流程、极简回测示例1h
02-投资组合构建等权、Top-K、IC加权、均值方差优化、风险平价1.5h
03-交易成本模型佣金、印花税、滑点、冲击成本、T+1 限制1.5h
04-绩效评估指标Sharpe、IR、Sortino、Calmar、MaxDD、VaR、CVaR1.5h
05-回测陷阱与防范过拟合、前视偏差、幸存者偏差、数据窥探、流动性1.5h
06-实战案例端到端:信号生成 → 组合构建 → 成本模拟 → 绩效评估1.5h

核心知识点

  • 5 种组合构建方法对比
  • 交易成本的完整建模(佣金 + 印花税 + 滑点 + 冲击成本)
  • 绩效评估指标体系(收益 / 风险 / 风险调整收益 / 交易指标)
  • 7 大回测陷阱与防范清单
  • A 股特有约束(T+1、涨跌停、印花税)

学习建议

前置知识

  • Python 编程(pandas、numpy 基础)
  • 基础统计学(均值、方差、相关系数、假设检验)
  • 基础金融知识(股票、收益率、夏普比率)

学习策略

  1. 按顺序学习:模块间有依赖关系,建议按 ① → ② → ③ → ④ → ⑤ 的顺序
  2. 代码一定要跑:每个模块都有完整可运行的代码,跟着敲一遍比看三遍有用
  3. 用真实数据练手:学完模块②后,可以用 A 股日频数据替换模拟数据进行练习
  4. 模块③和④选一个深入:树模型和深度学习选一个作为主力模型深入掌握
  5. 模块⑤是安全网:回测方法论能帮你避免”回测很美、实盘亏钱”的陷阱

量化 ML 心法

特征 > 模型 > 调参

  • 花 60% 的时间在特征工程上
  • 花 30% 的时间在模型选择和训练上
  • 花 10% 的时间在超参数调优上
  • 永远用样本外数据做最终评估
  • 对回测结果保持怀疑

技术栈

类别工具
数据处理pandas, numpy
树模型LightGBM, XGBoost, CatBoost
深度学习PyTorch
超参数优化Optuna
模型解释SHAP
可视化matplotlib, seaborn
优化求解scipy.optimize

此文件夹下有15条笔记。