传统量化研究：机构级知识体系

0. 文档说明

这份文档整合了两部分内容：

图片中整理出的 传统量化机构级知识全景
基于实战研究视角做的 补充解释、优先级重构与方法论延伸

这不是一份单纯的”课程目录”，而是一份更接近 机构传统量化知识地图 + 实战研究路线图 的合并版文档。

1. 总览：传统量化 vs ML 量化

传统量化与 ML 量化的核心差异在于：

传统量化更依赖数理推导、金融理论与统计严谨性，而非数据驱动的黑箱。
机构里的传统量化研究员，往往是这套体系的顶尖人才。

从机构视角看，传统量化的核心不是“会跑模型”，而是：

能从金融问题中抽象出数学表达
能从数学表达中构造可检验假设
能用严谨统计方法进行验证
能把信号落到组合、执行和风险约束上
能明确知道每个模型的假设、适用条件和失效边界

一句话说：

传统量化不是“会很多模型”，而是能把“金融直觉 → 数学表达 → 统计验证 → 组合实现 → 风险约束”连成闭环。

2. 传统量化：机构级知识全景

数理金融 ─────┐
计量经济学 ───┼──→ 传统量化（机构级研究员）
统计套利理论 ─┘
 
因子投资理论 ─────────→ 传统量化
传统量化 ───────────→ 组合管理理论
传统量化 ───────────→ 衍生品定价
 
因子投资理论 ─────────→ 衍生品定价
组合管理理论 ─────────→ 风险模型体系

七大模块

数理金融
计量经济学
统计套利理论
因子投资理论
衍生品定价
高频交易 & 市场微观结构
组合管理 & 风险模型

3. 数理金融（传统量化的理论基石）

这是传统量化与 ML 量化最大的分野。

ML 量化可以不懂随机微积分，传统量化通常不行。

3.1 随机微积分

测度论基础（σ-代数、测度）
布朗运动的性质与构造
伊藤积分定义与计算
伊藤引理（多维形式）
随机微分方程（SDE）求解
Girsanov 定理（测度变换）
Feynman-Kac 公式
停时理论

3.2 无套利定价理论

无套利条件（FTAP 第一 / 第二）
风险中性测度（Q 测度）
等价鞅测度存在性
复制组合 & 完备市场
风险中性定价公式
远期测度 & T 远期中性
换元测度技巧

3.3 资产价格模型

几何布朗运动（GBM）
Heston 随机波动率模型
SABR 模型
跳跃扩散（Merton / Kou）
方差 Gamma 模型
Vasicek / CIR 利率模型
HJM 利率框架
多因子利率模型

3.4 我的补充理解

这一部分更像传统金融工程、衍生品 desk、利率 desk、结构化产品 desk 的数学地基。

如果你的目标主要是：

中低频方向性策略
截面多空
crypto 因子研究
永续合约时序 / 截面策略

那么这部分不是最先投入最大精力的地方。
但如果你要进入：

期权
波动率交易
利率衍生品
信用结构化
做市定价引擎

那这部分就是硬门槛。

4. 计量经济学（传统量化的统计基础）

这是传统量化区别于纯工程师的核心竞争力之一：

知道如何正确地从数据中得出可信的统计推断，而不是跑出一堆数字就信以为真。

4.1 经典回归理论

OLS 假设（Gauss-Markov 定理）
异方差性（Heteroskedasticity）检验与修正
自相关检验（Durbin-Watson / LM 检验）
多重共线性诊断（VIF）
WLS / GLS 广义最小二乘
HAC 稳健标准误（Newey-West）
工具变量（IV）& 两阶段最小二乘（2SLS）
虚假回归问题及处理

4.2 时间序列计量

单位根检验（ADF / PP / KPSS）
协整检验（Engle-Granger / Johansen）
向量自回归（VAR）模型
误差修正模型（VECM）
结构突变检验（Chow / Bai-Perron）
ARCH 效应检验 & GARCH 估计
脉冲响应函数（IRF）
方差分解（Forecast Error Variance Decomposition）

4.3 面板数据方法

固定效应（FE）vs 随机效应（RE）
Hausman 检验（FE vs RE 选择）
Fama-MacBeth 两步回归（横截面定价）
双重差分（DID）
面板数据的异方差 & 序列相关处理
Driscoll-Kraay 标准误

4.4 因果推断（现代计量前沿）

潜在结果框架（Rubin Causal Model）
断点回归（RDD）
合成控制法
事件研究法（Event Study）
回归不连续设计
Granger 因果 vs 真实因果的区别

4.5 我的补充理解

如果你是做研究而不是单纯做系统，这一块通常是最值得优先投入的模块之一。

因为大量实战问题，最后真正区分研究水平的不是：

会不会调包
会不会跑回测
会不会堆很多特征

而是：

你是否知道检验对象是什么
你是否知道该用截面方法还是时间序列方法
你是否知道统计显著和经济显著的差别
你是否知道样本外是否仍成立
你是否知道结果是不是结构变化、数据挖掘或者口径问题造成的假象

对中低频、因子、crypto、CTA、永续合约研究来说，计量能力的重要性极高。

5. 统计套利理论（传统量化核心策略）

5.1 配对交易

相关性配对 vs 协整配对
协整向量估计（Johansen）
价差建模（OLS / Kalman）
半衰期估计（Ornstein-Uhlenbeck）
入场 / 出场阈值设定
动态对冲比率（Time-varying hedge ratio）
配对筛选与稳定性检验

5.2 均值回归模型

Ornstein-Uhlenbeck（OU）过程
OU 参数估计（MLE / 矩估计）
最优停时理论（最优入 / 出场）
多资产 OU 过程
均值回归速度 & 波动率关系
均值回归检验（Variance Ratio 检验）

5.3 套利策略类型

期现套利（现货 vs 期货定价）
跨期套利（近月 vs 远月）
跨品种套利（铁矿 vs 螺纹）
ETF 套利（折溢价套利）
可转债套利（转换价值套利）
ADR 套利（A/H 股溢价）
指数成分股套利

5.4 我的补充理解

这部分在很多人理解里容易被误读成“统计套利 = 均值回归”。

其实更准确地说：

统计套利是一个更大的框架
均值回归是其中一类重要建模方式
协整配对、价差回复、残差修复、相对价值、期现偏离修复，都可以落在统计套利的大框架内

对你当前研究很相关的点有几个：

第一，配对不是目的，稳定关系才是目的

真正关键的不是找两个“看起来相关”的资产，而是找：

稳定传导关系
可解释的相对偏离
有交易闭环的价差结构
成本后仍存在的修复机制

第二，均值回归不是“价格跌了就会回”

而是：

存在一个相对稳定的均衡关系
偏离出现后，未来偏离有向均值收敛的统计倾向
这种倾向在交易成本、延迟、风控约束后仍可获利

第三，统计套利对“失效机制”非常敏感

最常见的失效来源包括：

结构断裂
关系切换
regime 变化
市场流动性变化
拥挤交易
成本和冲击吞噬微弱 edge

6. 因子投资理论（传统量化的主战场）

这是传统量化研究员最核心的竞争力之一：

不是用 ML 挖因子，而是从理论出发理解为什么某个因子会有风险溢价。

6.1 经典因子体系（必须精通）

价值因子：B/P、E/P、CF/P、S/P
规模因子：市值、自由流通市值
动量因子：12-1 月动量、短期反转
质量因子：ROE、毛利率、应计项
低波动因子：Beta 异象、特异波动
流动性因子：Amihud、换手率
盈利因子：RMW（Fama-French 五因子）
投资因子：CMA（资产增长率）

6.2 因子溢价的来源理论

风险补偿理论（理性定价）
行为金融解释（投资者偏差）
市场摩擦（流动性溢价）
数据挖掘 vs 真实 Alpha 区分
经济周期与因子轮动关系
因子拥挤（Crowding）风险
跨市场因子可移植性检验

6.3 因子研究方法论

Fama-MacBeth 横截面回归
分组（Quintile / Decile）分析
IC / ICIR 评价体系
因子 t 统计量 & 多空组合
特征 vs 协方差风险辨析
因子正交化（施密特 / 回归残差）
因子衰减曲线分析
样本外检验的严格方法

6.4 Barra 风险模型深度

结构化风险模型框架
因子收益率估计（WLS 横截面）
特异性风险估计（EWMA）
协方差矩阵收缩处理
CNE6 / GEM3 模型理解
组合风险归因（因子 vs 特异）
Alpha 对齐问题（Alpha Alignment）

6.5 我的补充理解

这一块对你非常重要。

因为你现在一直在思考的很多问题，本质上都落在这一层：

截面打分和排序的区别
IC / ICIR 的使用边界
一个方向到底适合做截面、时间序列还是规则触发
因子是不是只是状态变量 / 过滤变量
单个 idea 如何推进到 mandate / signal ready / backtest ready

因子投资理论真正重要的，不只是“因子有哪些”，而是下面这几件事：

6.5.1 因子不是特征堆砌，而是风险溢价假说

好的传统量化研究会先问：

这个因子为什么应该有效？
它补偿了什么风险？
它对应什么行为偏差？
它在什么市场阶段应更强 / 更弱？
它为什么不会立刻被套利掉？

6.5.2 因子研究的关键不是高 IC，而是稳健可组合

一个因子最终是否有价值，要看：

稳定性
容量
成本后收益
与已有因子的相关性
在组合中的边际贡献
回撤性质
regime 敏感性

6.5.3 传统量化里，因子研究本质上是“横截面资产定价”

也就是：

研究哪些特征能解释未来截面收益差异
研究这些特征是不是带有可持续风险补偿或行为偏差
再决定是否可以交易化

7. 衍生品定价（传统量化的专属领地）

7.1 期权定价进阶

Black-Scholes-Merton 推导
二叉树模型（CRR / LR）
有限差分法（PDE 数值解）
蒙特卡洛定价（方差缩减技术）
随机波动率模型（Heston / SABR）
局部波动率模型（Dupire）
波动率曲面校准
美式期权提前行权定价

7.2 利率衍生品

利率互换（IRS）定价
上限 / 下限（Cap / Floor）定价
Swaption 定价
短利率模型（Vasicek / Hull-White）
LMM / BGM 市场模型
利率曲线 Bootstrap 构建
OIS 折现 & CSA 附件影响

7.3 信用衍生品

CDS 定价（强度模型）
违约概率估计（结构模型 / 简约模型）
Merton 结构模型
CDO / CLO 结构化产品定价
信用利差建模
Counterparty 风险（CVA / DVA）

7.4 我的补充理解

这是传统量化中最“硬核金融工程”的部分。

它和很多中低频选股 / 因子策略最大的差别在于：

理论约束强
无套利约束强
需要精确定价和风险对冲
对数学、数值方法、校准和 Greeks 理解要求非常高

这一块比较不适合“只追求先做出一个赚钱策略”的早期研究者作为第一优先级，
但如果未来你要做：

crypto 期权
波动率面
做市定价
结构化产品
利率 / 信用产品

那必须系统进入这一层。

8. 高频交易 & 市场微观结构（传统量化前沿）

8.1 微观结构理论

Kyle (1985) 模型：内幕交易定价
Glosten-Milgrom 模型：价差分解
Avellaneda-Stoikov 做市模型
订单流毒性（VPIN）度量
价格冲击的永久 vs 临时分解
知情交易概率（PIN）
价格发现过程（Hasbrouck 模型）
做市商库存模型（Ho-Stoll）

8.2 高频数据分析

Tick 数据清洗（错误成交过滤）
日内波动率模式（U 形曲线）
实现波动率与二次变差
已实现协方差矩阵估计
微观噪声模型（Zhang 两尺度）
逐笔成交数据特征分析
订单簿重建 & Level-2 分析

8.3 高频策略类型

做市策略（Market Making）
延迟套利（Latency Arbitrage）
统计套利（毫秒级）
订单流预测（短期价格方向）
冰山单探测策略
交易所间套利
期现高频套利

8.4 最优执行理论

Almgren-Chriss 最优执行框架
交易前沿（Efficient Trading Frontier）
动态规划求解最优策略
随机控制在执行中的应用
市场冲击的线性 vs 非线性模型
回撤成本（Reversion Cost）建模

8.5 我的补充理解

如果说因子投资是机构传统量化的主战场之一，那么微观结构就是机构交易能力和执行能力的深水区。

很多人会把策略研究和执行割裂开来，但实际上：

一个信号是否能赚钱，常常不是由预测能力决定
而是由执行质量、冲击成本、订单簿状态、容量约束决定

这对 crypto 市场尤其重要，因为：

流动性分层明显
做市深度经常不稳定
交易所结构差异大
短时冲击、资金费率、清算机制、maker/taker 结构都会改变 edge 兑现方式

所以即便不是做纯 HFT，理解部分微观结构也很有必要。

9. 组合管理 & 风险模型（机构运营核心）

9.1 组合构建理论

Markowitz 有效前沿（完整推导）
Black-Litterman 模型
Michaud 重采样优化
风险平价 & 等风险贡献
最大分散化（Max Diversification）
最小方差组合（GMV）
条件 VaR 约束组合优化
Transaction Cost-Aware 再平衡

9.2 协方差矩阵估计

样本协方差矩阵的问题
Ledoit-Wolf 收缩估计
因子模型协方差（Barra 结构）
随机矩阵理论（RMT）信号分离
指数加权协方差（EWMA）
DCC-GARCH 动态条件相关
高维协方差的非线性收缩

9.3 绩效归因深度

Brinson-Hood-Beebower 归因
因子收益归因（Barra 多因子）
Alpha 与 Beta 的严格分解
交易成本归因（执行质量）
主动收益 vs 主动风险（IR）
基本法则（Grinold 基本法则）
策略容量与 IR 的权衡

9.4 我的补充理解

这是很多个人研究者最容易低估的一层。

很多人会把注意力集中在：

想法
因子
模型
回测曲线

但机构真正赚钱，靠的不只是发现信号，更靠：

怎样组合多个信号
怎样控制风险暴露
怎样降低组合层面回撤
怎样在容量和换手之间平衡
怎样让 Alpha 真正转化成可实现收益

在实际研究里，很多单策略看起来不错，但一进组合就会暴露问题：

和已有 alpha 重复
风险暴露过高
回撤同质化
成本太高
容量太差
对 regime 过于敏感

所以组合管理不是“研究完成后的最后一步”，而应尽早介入研究判断。

10. 传统量化 vs ML 量化：核心差异对比

维度	传统量化	ML 量化
理论基础	数理金融 / 计量经济学 / 无套利定价	统计学习理论 / 优化 / 信息论
因子来源	理论驱动，有经济学解释	数据驱动，可解释性弱
核心工具	SDE / 回归 / 优化 / 蒙特卡洛	LightGBM / LSTM / Transformer / RL
过拟合风险	相对较低（参数少，有理论约束）	极高（需要严格的时序验证框架）
擅长资产	衍生品 / 固定收益 / 高频	股票选择 / 因子挖掘 / 中低频
可解释性	强，每个参数都有金融含义	弱，黑箱特性难以向 LP 解释
机构门槛	数学基础极高（博士常见）	工程能力强，数学门槛相对低
融合趋势	用 ML 挖掘信号，用传统框架约束风险和执行	用 ML 挖掘信号，用传统框架约束风险和执行

10.1 我的补充修正

这张对比图的方向是对的，但略有“二元对立化”，更准确的表达应该是：

传统量化也会过拟合

不是传统量化就不会过拟合，而是：

参数通常更少
理论约束更强
搜索空间更窄
所以相对更不容易严重失控

ML 也不一定完全不可解释

不是 ML 一定不可解释，而是：

纯黑箱模型可解释性差
树模型、稀疏模型、广义加性模型等仍可部分解释
真正困难的是“金融因果解释”而不是“普通特征重要性解释”

传统 vs ML 的更本质区别

更本质的区别是：

传统量化 更适合强理论约束、强结构、低维、金融解释要求高的问题
ML 量化 更适合高维弱信号、非线性、多源异构数据的问题

顶级机构的现实做法

现实里，顶级机构不是二选一，而是融合：

用传统框架界定研究边界
用统计方法控制伪发现
用 ML 提升信号提取能力
用风险模型和执行模型完成落地

11. 推荐书单

书名	作者	方向	重要程度
Stochastic Calculus for Finance I & II	Shreve	数理金融	★★★★★
Options, Futures, and Other Derivatives	John Hull	衍生品定价	★★★★★
Active Portfolio Management	Grinold & Kahn	因子投资	★★★★★
Econometrics	Hayashi	计量经济学	★★★★★
Market Microstructure Theory	O’Hara	微观结构	★★★★☆
The Econometrics of Financial Markets	Campbell, Lo, MacKinlay	金融计量	★★★★★
Interest Rate Models	Brigo & Mercurio	利率衍生品	★★★★☆
Algorithmic and High-Frequency Trading	Cartea, Jaimungal	高频与执行	★★★★★
Expected Returns	Ilmanen	因子溢价	★★★★☆
Efficiently Inefficient	Lasse Pedersen	对冲基金策略	★★★★☆

12. 一句话总结

传统量化的壁垒，是你能从第一性原理推出每一个公式，并知道每个假设在什么市场条件下会失效。
ML 量化的壁垒，是工程和数据。
顶级机构最稀缺的是能把两套体系融合的人——用传统金融理论约束 ML 模型的搜索空间，用 ML 方法提升传统因子的信号质量。

13. 从实战角度重构：这张图不是“平均学习路线”

这张图更像是 机构传统量化知识地图，不是 个人或团队的实战优先级地图。

也就是说，这 7 大模块不是都应该平均投入。

14. 按不同 desk / 方向重排优先级

14.1 如果做中低频 Alpha / 因子 / CTA / 永续合约研究

更高优先级通常是：

计量经济学
因子投资理论
组合管理与风险模型
部分统计套利理论
部分市场微观结构
少量 ML 与优化

14.2 如果做做市 / 高频 / 执行

更高优先级通常是：

市场微观结构
高频数据处理
最优执行
风险控制
工程系统能力
做市库存与冲击模型

14.3 如果做期权 / 利率 / 结构化产品

更高优先级通常是：

数理金融
无套利定价
PDE / 蒙特卡洛
波动率曲面
校准与风险对冲
利率 / 信用模型

15. 对当前你这类研究更相关的主线

结合你当前长期关注的问题，更 relevant 的不是先把所有随机微积分、利率模型、高频微观结构都完整学完，而是先抓住下面这条主线：

15.1 第一层：研究问题分类能力

每个 idea 一上来先问：

这是 截面问题 吗？
这是 时间序列问题 吗？
这是 规则触发问题 吗？
这是 预测问题、排序问题，还是 状态过滤问题？
这是 独立信号，还是只适合作为 regime filter？
这是 单资产逻辑，还是 相对价值逻辑？

15.2 第二层：统计验证能力

样本内 vs 样本外
train / validate / test / holdout 的切分
稳健性检验
参数扰动检验
结构断裂检验
多重假设检验
成本后是否仍有效
是否只是某几个阶段驱动结果

15.3 第三层：组合与落地能力

单信号是否能进入组合
与已有信号是否高度重复
是否有边际贡献
容量是否够
滑点 / 冲击之后是否还成立
风险暴露是否可控
是否能与其他策略形成互补

16. 图片之外，实战中还缺的一层：研究工程与治理

如果说图片展示的是“知识体系”，那机构真正的壁垒还包括另一层：

八、研究工程与治理（实战极其关键）

16.1 研究命题治理

Mandate 定义
研究边界定义
成功标准定义
失败标准定义
假设拆解与 falsification

16.2 数据治理

数据口径统一
对齐方式定义
缺失处理
幸存者偏差控制
前视偏差控制
时间戳一致性
可交易性校验

16.3 特征治理

特征定义与版本化
滞后规则
归一化口径
去极值 / 标准化
暴露中性化
生产可重现性

16.4 回测治理

手续费
冲击成本
融资 / 资金费率
杠杆限制
换仓约束
容量限制
流动性过滤
执行假设透明化

16.5 实验治理

train / validate / test / holdout
多重检验控制
参数扫描约束
artifact 归档
图表 / 日志 / 配置 / 随机种子管理
失败实验保留与复用

16.6 阶段 gate 治理

data ready
signal ready
portfolio ready
shadow ready
no-go / retry / conditional pass / child lineage

16.7 我的补充理解

很多机构真正的优势，并不只是“知道哪些模型”，而是：

研究流程严谨
审核机制明确
失败研究可复用
决策链条透明
从 idea 到 shadow 有统一协议

这比单独多学一个模型重要得多。

17. 如果压缩成最小可用学习路径

如果把整张图压缩成更适合实战的“最小可用学习路线”，我会这么排：

阶段 1：统计与研究基本功

概率统计
回归
时间序列
假设检验
回测与样本外验证

阶段 2：因子与组合

因子构建
IC / ICIR / 分组收益
风险模型
组合优化
交易成本与容量

阶段 3：策略专题

趋势
均值回归
套利
事件驱动
截面多空
时序择时
执行与风控

阶段 4：高级专题

微观结构
衍生品定价
高频
结构化风险模型
ML / 深度学习融合

18. 最终总结：如何正确理解这张图

这张图的价值，不在于告诉你“要学 7 大模块里所有内容”，而在于说明：

传统量化是一套完整体系，不是几种策略技巧
机构研究员的核心优势来自理论、统计、组合、风险、执行的闭环
不同方向需要不同的知识优先级
真正的研究能力，不是只会找信号，而是知道如何把一个 idea 从假设推进到可交易资产
顶级机构稀缺的不是单纯传统派或单纯 ML 派，而是能把两者融合的人

19. 最后一句话版本

传统量化的核心，不是“背会模型目录”，而是用理论约束研究、用统计验证假设、用组合和执行把信号变成真正可实现的收益。”

如果你要，我下一步可以继续把这份内容改成更规整的 .md 文件格式版本，我会加上更漂亮的标题层级、目录锚点，以及更适合 Obsidian / Typora 直接保存的格式。

MindCarver Blog

MindCarver

探索

传统量化研究学习路径

传统量化研究：机构级知识体系

0. 文档说明

1. 总览：传统量化 vs ML 量化

2. 传统量化：机构级知识全景

七大模块

3. 数理金融（传统量化的理论基石）

3.1 随机微积分

3.2 无套利定价理论

3.3 资产价格模型

3.4 我的补充理解

4. 计量经济学（传统量化的统计基础）

4.1 经典回归理论

4.2 时间序列计量

4.3 面板数据方法

4.4 因果推断（现代计量前沿）

4.5 我的补充理解

5. 统计套利理论（传统量化核心策略）

5.1 配对交易

5.2 均值回归模型

5.3 套利策略类型

5.4 我的补充理解

第一，配对不是目的，稳定关系才是目的

第二，均值回归不是“价格跌了就会回”

第三，统计套利对“失效机制”非常敏感

6. 因子投资理论（传统量化的主战场）

6.1 经典因子体系（必须精通）

6.2 因子溢价的来源理论

6.3 因子研究方法论

6.4 Barra 风险模型深度

6.5 我的补充理解

6.5.1 因子不是特征堆砌，而是风险溢价假说

6.5.2 因子研究的关键不是高 IC，而是稳健可组合

6.5.3 传统量化里，因子研究本质上是“横截面资产定价”

7. 衍生品定价（传统量化的专属领地）

7.1 期权定价进阶

7.2 利率衍生品

7.3 信用衍生品

7.4 我的补充理解

8. 高频交易 & 市场微观结构（传统量化前沿）

8.1 微观结构理论

8.2 高频数据分析

8.3 高频策略类型

8.4 最优执行理论

8.5 我的补充理解

9. 组合管理 & 风险模型（机构运营核心）

9.1 组合构建理论

9.2 协方差矩阵估计

9.3 绩效归因深度

9.4 我的补充理解

10. 传统量化 vs ML 量化：核心差异对比

10.1 我的补充修正

传统量化也会过拟合

ML 也不一定完全不可解释

传统 vs ML 的更本质区别

顶级机构的现实做法

11. 推荐书单

12. 一句话总结

13. 从实战角度重构：这张图不是“平均学习路线”

14. 按不同 desk / 方向重排优先级

14.1 如果做中低频 Alpha / 因子 / CTA / 永续合约研究

14.2 如果做做市 / 高频 / 执行

14.3 如果做期权 / 利率 / 结构化产品

15. 对当前你这类研究更相关的主线

15.1 第一层：研究问题分类能力

15.2 第二层：统计验证能力

15.3 第三层：组合与落地能力

16. 图片之外，实战中还缺的一层：研究工程与治理

八、研究工程与治理（实战极其关键）

16.1 研究命题治理

16.2 数据治理

16.3 特征治理

16.4 回测治理

16.5 实验治理

16.6 阶段 gate 治理

16.7 我的补充理解

17. 如果压缩成最小可用学习路径