传统量化研究:机构级知识体系
0. 文档说明
这份文档整合了两部分内容:
-
图片中整理出的 传统量化机构级知识全景
-
基于实战研究视角做的 补充解释、优先级重构与方法论延伸
这不是一份单纯的”课程目录”,而是一份更接近 机构传统量化知识地图 + 实战研究路线图 的合并版文档。
1. 总览:传统量化 vs ML 量化
传统量化与 ML 量化的核心差异在于:
传统量化更依赖数理推导、金融理论与统计严谨性,而非数据驱动的黑箱。
机构里的传统量化研究员,往往是这套体系的顶尖人才。
从机构视角看,传统量化的核心不是“会跑模型”,而是:
-
能从金融问题中抽象出数学表达
-
能从数学表达中构造可检验假设
-
能用严谨统计方法进行验证
-
能把信号落到组合、执行和风险约束上
-
能明确知道每个模型的假设、适用条件和失效边界
一句话说:
传统量化不是“会很多模型”,而是能把“金融直觉 → 数学表达 → 统计验证 → 组合实现 → 风险约束”连成闭环。
2. 传统量化:机构级知识全景
数理金融 ─────┐
计量经济学 ───┼──→ 传统量化(机构级研究员)
统计套利理论 ─┘
因子投资理论 ─────────→ 传统量化
传统量化 ───────────→ 组合管理理论
传统量化 ───────────→ 衍生品定价
因子投资理论 ─────────→ 衍生品定价
组合管理理论 ─────────→ 风险模型体系七大模块
-
数理金融
-
计量经济学
-
统计套利理论
-
因子投资理论
-
衍生品定价
-
高频交易 & 市场微观结构
-
组合管理 & 风险模型
3. 数理金融(传统量化的理论基石)
这是传统量化与 ML 量化最大的分野。
ML 量化可以不懂随机微积分,传统量化通常不行。
3.1 随机微积分
-
测度论基础(σ-代数、测度)
-
布朗运动的性质与构造
-
伊藤积分定义与计算
-
伊藤引理(多维形式)
-
随机微分方程(SDE)求解
-
Girsanov 定理(测度变换)
-
Feynman-Kac 公式
-
停时理论
3.2 无套利定价理论
-
无套利条件(FTAP 第一 / 第二)
-
风险中性测度(Q 测度)
-
等价鞅测度存在性
-
复制组合 & 完备市场
-
风险中性定价公式
-
远期测度 & T 远期中性
-
换元测度技巧
3.3 资产价格模型
-
几何布朗运动(GBM)
-
Heston 随机波动率模型
-
SABR 模型
-
跳跃扩散(Merton / Kou)
-
方差 Gamma 模型
-
Vasicek / CIR 利率模型
-
HJM 利率框架
-
多因子利率模型
3.4 我的补充理解
这一部分更像传统金融工程、衍生品 desk、利率 desk、结构化产品 desk 的数学地基。
如果你的目标主要是:
-
中低频方向性策略
-
截面多空
-
crypto 因子研究
-
永续合约时序 / 截面策略
那么这部分不是最先投入最大精力的地方。
但如果你要进入:
-
期权
-
波动率交易
-
利率衍生品
-
信用结构化
-
做市定价引擎
那这部分就是硬门槛。
4. 计量经济学(传统量化的统计基础)
这是传统量化区别于纯工程师的核心竞争力之一:
知道如何正确地从数据中得出可信的统计推断,而不是跑出一堆数字就信以为真。
4.1 经典回归理论
-
OLS 假设(Gauss-Markov 定理)
-
异方差性(Heteroskedasticity)检验与修正
-
自相关检验(Durbin-Watson / LM 检验)
-
多重共线性诊断(VIF)
-
WLS / GLS 广义最小二乘
-
HAC 稳健标准误(Newey-West)
-
工具变量(IV)& 两阶段最小二乘(2SLS)
-
虚假回归问题及处理
4.2 时间序列计量
-
单位根检验(ADF / PP / KPSS)
-
协整检验(Engle-Granger / Johansen)
-
向量自回归(VAR)模型
-
误差修正模型(VECM)
-
结构突变检验(Chow / Bai-Perron)
-
ARCH 效应检验 & GARCH 估计
-
脉冲响应函数(IRF)
-
方差分解(Forecast Error Variance Decomposition)
4.3 面板数据方法
-
固定效应(FE)vs 随机效应(RE)
-
Hausman 检验(FE vs RE 选择)
-
Fama-MacBeth 两步回归(横截面定价)
-
双重差分(DID)
-
面板数据的异方差 & 序列相关处理
-
Driscoll-Kraay 标准误
4.4 因果推断(现代计量前沿)
-
潜在结果框架(Rubin Causal Model)
-
断点回归(RDD)
-
合成控制法
-
事件研究法(Event Study)
-
回归不连续设计
-
Granger 因果 vs 真实因果的区别
4.5 我的补充理解
如果你是做研究而不是单纯做系统,这一块通常是最值得优先投入的模块之一。
因为大量实战问题,最后真正区分研究水平的不是:
-
会不会调包
-
会不会跑回测
-
会不会堆很多特征
而是:
-
你是否知道检验对象是什么
-
你是否知道该用截面方法还是时间序列方法
-
你是否知道统计显著和经济显著的差别
-
你是否知道样本外是否仍成立
-
你是否知道结果是不是结构变化、数据挖掘或者口径问题造成的假象
对中低频、因子、crypto、CTA、永续合约研究来说,计量能力的重要性极高。
5. 统计套利理论(传统量化核心策略)
5.1 配对交易
-
相关性配对 vs 协整配对
-
协整向量估计(Johansen)
-
价差建模(OLS / Kalman)
-
半衰期估计(Ornstein-Uhlenbeck)
-
入场 / 出场阈值设定
-
动态对冲比率(Time-varying hedge ratio)
-
配对筛选与稳定性检验
5.2 均值回归模型
-
Ornstein-Uhlenbeck(OU)过程
-
OU 参数估计(MLE / 矩估计)
-
最优停时理论(最优入 / 出场)
-
多资产 OU 过程
-
均值回归速度 & 波动率关系
-
均值回归检验(Variance Ratio 检验)
5.3 套利策略类型
-
期现套利(现货 vs 期货定价)
-
跨期套利(近月 vs 远月)
-
跨品种套利(铁矿 vs 螺纹)
-
ETF 套利(折溢价套利)
-
可转债套利(转换价值套利)
-
ADR 套利(A/H 股溢价)
-
指数成分股套利
5.4 我的补充理解
这部分在很多人理解里容易被误读成“统计套利 = 均值回归”。
其实更准确地说:
-
统计套利是一个更大的框架
-
均值回归是其中一类重要建模方式
-
协整配对、价差回复、残差修复、相对价值、期现偏离修复,都可以落在统计套利的大框架内
对你当前研究很相关的点有几个:
第一,配对不是目的,稳定关系才是目的
真正关键的不是找两个“看起来相关”的资产,而是找:
-
稳定传导关系
-
可解释的相对偏离
-
有交易闭环的价差结构
-
成本后仍存在的修复机制
第二,均值回归不是“价格跌了就会回”
而是:
-
存在一个相对稳定的均衡关系
-
偏离出现后,未来偏离有向均值收敛的统计倾向
-
这种倾向在交易成本、延迟、风控约束后仍可获利
第三,统计套利对“失效机制”非常敏感
最常见的失效来源包括:
-
结构断裂
-
关系切换
-
regime 变化
-
市场流动性变化
-
拥挤交易
-
成本和冲击吞噬微弱 edge
6. 因子投资理论(传统量化的主战场)
这是传统量化研究员最核心的竞争力之一:
不是用 ML 挖因子,而是从理论出发理解为什么某个因子会有风险溢价。
6.1 经典因子体系(必须精通)
-
价值因子:B/P、E/P、CF/P、S/P
-
规模因子:市值、自由流通市值
-
动量因子:12-1 月动量、短期反转
-
质量因子:ROE、毛利率、应计项
-
低波动因子:Beta 异象、特异波动
-
流动性因子:Amihud、换手率
-
盈利因子:RMW(Fama-French 五因子)
-
投资因子:CMA(资产增长率)
6.2 因子溢价的来源理论
-
风险补偿理论(理性定价)
-
行为金融解释(投资者偏差)
-
市场摩擦(流动性溢价)
-
数据挖掘 vs 真实 Alpha 区分
-
经济周期与因子轮动关系
-
因子拥挤(Crowding)风险
-
跨市场因子可移植性检验
6.3 因子研究方法论
-
Fama-MacBeth 横截面回归
-
分组(Quintile / Decile)分析
-
IC / ICIR 评价体系
-
因子 t 统计量 & 多空组合
-
特征 vs 协方差风险辨析
-
因子正交化(施密特 / 回归残差)
-
因子衰减曲线分析
-
样本外检验的严格方法
6.4 Barra 风险模型深度
-
结构化风险模型框架
-
因子收益率估计(WLS 横截面)
-
特异性风险估计(EWMA)
-
协方差矩阵收缩处理
-
CNE6 / GEM3 模型理解
-
组合风险归因(因子 vs 特异)
-
Alpha 对齐问题(Alpha Alignment)
6.5 我的补充理解
这一块对你非常重要。
因为你现在一直在思考的很多问题,本质上都落在这一层:
-
截面打分和排序的区别
-
IC / ICIR 的使用边界
-
一个方向到底适合做截面、时间序列还是规则触发
-
因子是不是只是状态变量 / 过滤变量
-
单个 idea 如何推进到 mandate / signal ready / backtest ready
因子投资理论真正重要的,不只是“因子有哪些”,而是下面这几件事:
6.5.1 因子不是特征堆砌,而是风险溢价假说
好的传统量化研究会先问:
-
这个因子为什么应该有效?
-
它补偿了什么风险?
-
它对应什么行为偏差?
-
它在什么市场阶段应更强 / 更弱?
-
它为什么不会立刻被套利掉?
6.5.2 因子研究的关键不是高 IC,而是稳健可组合
一个因子最终是否有价值,要看:
-
稳定性
-
容量
-
成本后收益
-
与已有因子的相关性
-
在组合中的边际贡献
-
回撤性质
-
regime 敏感性
6.5.3 传统量化里,因子研究本质上是“横截面资产定价”
也就是:
-
研究哪些特征能解释未来截面收益差异
-
研究这些特征是不是带有可持续风险补偿或行为偏差
-
再决定是否可以交易化
7. 衍生品定价(传统量化的专属领地)
7.1 期权定价进阶
-
Black-Scholes-Merton 推导
-
二叉树模型(CRR / LR)
-
有限差分法(PDE 数值解)
-
蒙特卡洛定价(方差缩减技术)
-
随机波动率模型(Heston / SABR)
-
局部波动率模型(Dupire)
-
波动率曲面校准
-
美式期权提前行权定价
7.2 利率衍生品
-
利率互换(IRS)定价
-
上限 / 下限(Cap / Floor)定价
-
Swaption 定价
-
短利率模型(Vasicek / Hull-White)
-
LMM / BGM 市场模型
-
利率曲线 Bootstrap 构建
-
OIS 折现 & CSA 附件影响
7.3 信用衍生品
-
CDS 定价(强度模型)
-
违约概率估计(结构模型 / 简约模型)
-
Merton 结构模型
-
CDO / CLO 结构化产品定价
-
信用利差建模
-
Counterparty 风险(CVA / DVA)
7.4 我的补充理解
这是传统量化中最“硬核金融工程”的部分。
它和很多中低频选股 / 因子策略最大的差别在于:
-
理论约束强
-
无套利约束强
-
需要精确定价和风险对冲
-
对数学、数值方法、校准和 Greeks 理解要求非常高
这一块比较不适合“只追求先做出一个赚钱策略”的早期研究者作为第一优先级,
但如果未来你要做:
-
crypto 期权
-
波动率面
-
做市定价
-
结构化产品
-
利率 / 信用产品
那必须系统进入这一层。
8. 高频交易 & 市场微观结构(传统量化前沿)
8.1 微观结构理论
-
Kyle (1985) 模型:内幕交易定价
-
Glosten-Milgrom 模型:价差分解
-
Avellaneda-Stoikov 做市模型
-
订单流毒性(VPIN)度量
-
价格冲击的永久 vs 临时分解
-
知情交易概率(PIN)
-
价格发现过程(Hasbrouck 模型)
-
做市商库存模型(Ho-Stoll)
8.2 高频数据分析
-
Tick 数据清洗(错误成交过滤)
-
日内波动率模式(U 形曲线)
-
实现波动率与二次变差
-
已实现协方差矩阵估计
-
微观噪声模型(Zhang 两尺度)
-
逐笔成交数据特征分析
-
订单簿重建 & Level-2 分析
8.3 高频策略类型
-
做市策略(Market Making)
-
延迟套利(Latency Arbitrage)
-
统计套利(毫秒级)
-
订单流预测(短期价格方向)
-
冰山单探测策略
-
交易所间套利
-
期现高频套利
8.4 最优执行理论
-
Almgren-Chriss 最优执行框架
-
交易前沿(Efficient Trading Frontier)
-
动态规划求解最优策略
-
随机控制在执行中的应用
-
市场冲击的线性 vs 非线性模型
-
回撤成本(Reversion Cost)建模
8.5 我的补充理解
如果说因子投资是机构传统量化的主战场之一,那么微观结构就是机构交易能力和执行能力的深水区。
很多人会把策略研究和执行割裂开来,但实际上:
-
一个信号是否能赚钱,常常不是由预测能力决定
-
而是由执行质量、冲击成本、订单簿状态、容量约束决定
这对 crypto 市场尤其重要,因为:
-
流动性分层明显
-
做市深度经常不稳定
-
交易所结构差异大
-
短时冲击、资金费率、清算机制、maker/taker 结构都会改变 edge 兑现方式
所以即便不是做纯 HFT,理解部分微观结构也很有必要。
9. 组合管理 & 风险模型(机构运营核心)
9.1 组合构建理论
-
Markowitz 有效前沿(完整推导)
-
Black-Litterman 模型
-
Michaud 重采样优化
-
风险平价 & 等风险贡献
-
最大分散化(Max Diversification)
-
最小方差组合(GMV)
-
条件 VaR 约束组合优化
-
Transaction Cost-Aware 再平衡
9.2 协方差矩阵估计
-
样本协方差矩阵的问题
-
Ledoit-Wolf 收缩估计
-
因子模型协方差(Barra 结构)
-
随机矩阵理论(RMT)信号分离
-
指数加权协方差(EWMA)
-
DCC-GARCH 动态条件相关
-
高维协方差的非线性收缩
9.3 绩效归因深度
-
Brinson-Hood-Beebower 归因
-
因子收益归因(Barra 多因子)
-
Alpha 与 Beta 的严格分解
-
交易成本归因(执行质量)
-
主动收益 vs 主动风险(IR)
-
基本法则(Grinold 基本法则)
-
策略容量与 IR 的权衡
9.4 我的补充理解
这是很多个人研究者最容易低估的一层。
很多人会把注意力集中在:
-
想法
-
因子
-
模型
-
回测曲线
但机构真正赚钱,靠的不只是发现信号,更靠:
-
怎样组合多个信号
-
怎样控制风险暴露
-
怎样降低组合层面回撤
-
怎样在容量和换手之间平衡
-
怎样让 Alpha 真正转化成可实现收益
在实际研究里,很多单策略看起来不错,但一进组合就会暴露问题:
-
和已有 alpha 重复
-
风险暴露过高
-
回撤同质化
-
成本太高
-
容量太差
-
对 regime 过于敏感
所以组合管理不是“研究完成后的最后一步”,而应尽早介入研究判断。
10. 传统量化 vs ML 量化:核心差异对比
| 维度 | 传统量化 | ML 量化 |
|---|---|---|
| 理论基础 | 数理金融 / 计量经济学 / 无套利定价 | 统计学习理论 / 优化 / 信息论 |
| 因子来源 | 理论驱动,有经济学解释 | 数据驱动,可解释性弱 |
| 核心工具 | SDE / 回归 / 优化 / 蒙特卡洛 | LightGBM / LSTM / Transformer / RL |
| 过拟合风险 | 相对较低(参数少,有理论约束) | 极高(需要严格的时序验证框架) |
| 擅长资产 | 衍生品 / 固定收益 / 高频 | 股票选择 / 因子挖掘 / 中低频 |
| 可解释性 | 强,每个参数都有金融含义 | 弱,黑箱特性难以向 LP 解释 |
| 机构门槛 | 数学基础极高(博士常见) | 工程能力强,数学门槛相对低 |
| 融合趋势 | 用 ML 挖掘信号,用传统框架约束风险和执行 | 用 ML 挖掘信号,用传统框架约束风险和执行 |
10.1 我的补充修正
这张对比图的方向是对的,但略有“二元对立化”,更准确的表达应该是:
传统量化也会过拟合
不是传统量化就不会过拟合,而是:
-
参数通常更少
-
理论约束更强
-
搜索空间更窄
-
所以相对更不容易严重失控
ML 也不一定完全不可解释
不是 ML 一定不可解释,而是:
-
纯黑箱模型可解释性差
-
树模型、稀疏模型、广义加性模型等仍可部分解释
-
真正困难的是“金融因果解释”而不是“普通特征重要性解释”
传统 vs ML 的更本质区别
更本质的区别是:
-
传统量化 更适合强理论约束、强结构、低维、金融解释要求高的问题
-
ML 量化 更适合高维弱信号、非线性、多源异构数据的问题
顶级机构的现实做法
现实里,顶级机构不是二选一,而是融合:
-
用传统框架界定研究边界
-
用统计方法控制伪发现
-
用 ML 提升信号提取能力
-
用风险模型和执行模型完成落地
11. 推荐书单
| 书名 | 作者 | 方向 | 重要程度 |
|---|---|---|---|
| Stochastic Calculus for Finance I & II | Shreve | 数理金融 | ★★★★★ |
| Options, Futures, and Other Derivatives | John Hull | 衍生品定价 | ★★★★★ |
| Active Portfolio Management | Grinold & Kahn | 因子投资 | ★★★★★ |
| Econometrics | Hayashi | 计量经济学 | ★★★★★ |
| Market Microstructure Theory | O’Hara | 微观结构 | ★★★★☆ |
| The Econometrics of Financial Markets | Campbell, Lo, MacKinlay | 金融计量 | ★★★★★ |
| Interest Rate Models | Brigo & Mercurio | 利率衍生品 | ★★★★☆ |
| Algorithmic and High-Frequency Trading | Cartea, Jaimungal | 高频与执行 | ★★★★★ |
| Expected Returns | Ilmanen | 因子溢价 | ★★★★☆ |
| Efficiently Inefficient | Lasse Pedersen | 对冲基金策略 | ★★★★☆ |
12. 一句话总结
传统量化的壁垒,是你能从第一性原理推出每一个公式,并知道每个假设在什么市场条件下会失效。
ML 量化的壁垒,是工程和数据。
顶级机构最稀缺的是能把两套体系融合的人——用传统金融理论约束 ML 模型的搜索空间,用 ML 方法提升传统因子的信号质量。
13. 从实战角度重构:这张图不是“平均学习路线”
这张图更像是 机构传统量化知识地图,不是 个人或团队的实战优先级地图。
也就是说,这 7 大模块不是都应该平均投入。
14. 按不同 desk / 方向重排优先级
14.1 如果做中低频 Alpha / 因子 / CTA / 永续合约研究
更高优先级通常是:
-
计量经济学
-
因子投资理论
-
组合管理与风险模型
-
部分统计套利理论
-
部分市场微观结构
-
少量 ML 与优化
14.2 如果做做市 / 高频 / 执行
更高优先级通常是:
-
市场微观结构
-
高频数据处理
-
最优执行
-
风险控制
-
工程系统能力
-
做市库存与冲击模型
14.3 如果做期权 / 利率 / 结构化产品
更高优先级通常是:
-
数理金融
-
无套利定价
-
PDE / 蒙特卡洛
-
波动率曲面
-
校准与风险对冲
-
利率 / 信用模型
15. 对当前你这类研究更相关的主线
结合你当前长期关注的问题,更 relevant 的不是先把所有随机微积分、利率模型、高频微观结构都完整学完,而是先抓住下面这条主线:
15.1 第一层:研究问题分类能力
每个 idea 一上来先问:
-
这是 截面问题 吗?
-
这是 时间序列问题 吗?
-
这是 规则触发问题 吗?
-
这是 预测问题、排序问题,还是 状态过滤问题?
-
这是 独立信号,还是只适合作为 regime filter?
-
这是 单资产逻辑,还是 相对价值逻辑?
15.2 第二层:统计验证能力
-
样本内 vs 样本外
-
train / validate / test / holdout 的切分
-
稳健性检验
-
参数扰动检验
-
结构断裂检验
-
多重假设检验
-
成本后是否仍有效
-
是否只是某几个阶段驱动结果
15.3 第三层:组合与落地能力
-
单信号是否能进入组合
-
与已有信号是否高度重复
-
是否有边际贡献
-
容量是否够
-
滑点 / 冲击之后是否还成立
-
风险暴露是否可控
-
是否能与其他策略形成互补
16. 图片之外,实战中还缺的一层:研究工程与治理
如果说图片展示的是“知识体系”,那机构真正的壁垒还包括另一层:
八、研究工程与治理(实战极其关键)
16.1 研究命题治理
-
Mandate 定义
-
研究边界定义
-
成功标准定义
-
失败标准定义
-
假设拆解与 falsification
16.2 数据治理
-
数据口径统一
-
对齐方式定义
-
缺失处理
-
幸存者偏差控制
-
前视偏差控制
-
时间戳一致性
-
可交易性校验
16.3 特征治理
-
特征定义与版本化
-
滞后规则
-
归一化口径
-
去极值 / 标准化
-
暴露中性化
-
生产可重现性
16.4 回测治理
-
手续费
-
冲击成本
-
融资 / 资金费率
-
杠杆限制
-
换仓约束
-
容量限制
-
流动性过滤
-
执行假设透明化
16.5 实验治理
-
train / validate / test / holdout
-
多重检验控制
-
参数扫描约束
-
artifact 归档
-
图表 / 日志 / 配置 / 随机种子管理
-
失败实验保留与复用
16.6 阶段 gate 治理
-
data ready
-
signal ready
-
portfolio ready
-
shadow ready
-
no-go / retry / conditional pass / child lineage
16.7 我的补充理解
很多机构真正的优势,并不只是“知道哪些模型”,而是:
-
研究流程严谨
-
审核机制明确
-
失败研究可复用
-
决策链条透明
-
从 idea 到 shadow 有统一协议
这比单独多学一个模型重要得多。
17. 如果压缩成最小可用学习路径
如果把整张图压缩成更适合实战的“最小可用学习路线”,我会这么排:
阶段 1:统计与研究基本功
-
概率统计
-
回归
-
时间序列
-
假设检验
-
回测与样本外验证
阶段 2:因子与组合
-
因子构建
-
IC / ICIR / 分组收益
-
风险模型
-
组合优化
-
交易成本与容量
阶段 3:策略专题
-
趋势
-
均值回归
-
套利
-
事件驱动
-
截面多空
-
时序择时
-
执行与风控
阶段 4:高级专题
-
微观结构
-
衍生品定价
-
高频
-
结构化风险模型
-
ML / 深度学习融合
18. 最终总结:如何正确理解这张图
这张图的价值,不在于告诉你“要学 7 大模块里所有内容”,而在于说明:
-
传统量化是一套完整体系,不是几种策略技巧
-
机构研究员的核心优势来自理论、统计、组合、风险、执行的闭环
-
不同方向需要不同的知识优先级
-
真正的研究能力,不是只会找信号,而是知道如何把一个 idea 从假设推进到可交易资产
-
顶级机构稀缺的不是单纯传统派或单纯 ML 派,而是能把两者融合的人
19. 最后一句话版本
传统量化的核心,不是“背会模型目录”,而是用理论约束研究、用统计验证假设、用组合和执行把信号变成真正可实现的收益。”
如果你要,我下一步可以继续把这份内容改成更规整的 .md 文件格式版本,我会加上更漂亮的标题层级、目录锚点,以及更适合 Obsidian / Typora 直接保存的格式。