传统量化研究:机构级知识体系

0. 文档说明

这份文档整合了两部分内容:

  1. 图片中整理出的 传统量化机构级知识全景

  2. 基于实战研究视角做的 补充解释、优先级重构与方法论延伸

这不是一份单纯的”课程目录”,而是一份更接近 机构传统量化知识地图 + 实战研究路线图 的合并版文档。

1. 总览:传统量化 vs ML 量化

传统量化与 ML 量化的核心差异在于:

传统量化更依赖数理推导、金融理论与统计严谨性,而非数据驱动的黑箱。
机构里的传统量化研究员,往往是这套体系的顶尖人才。

从机构视角看,传统量化的核心不是“会跑模型”,而是:

  • 能从金融问题中抽象出数学表达

  • 能从数学表达中构造可检验假设

  • 能用严谨统计方法进行验证

  • 能把信号落到组合、执行和风险约束上

  • 能明确知道每个模型的假设、适用条件和失效边界

一句话说:

传统量化不是“会很多模型”,而是能把“金融直觉 → 数学表达 → 统计验证 → 组合实现 → 风险约束”连成闭环。


2. 传统量化:机构级知识全景

数理金融 ─────┐
计量经济学 ───┼──→ 传统量化(机构级研究员)
统计套利理论 ─┘
 
因子投资理论 ─────────→ 传统量化
传统量化 ───────────→ 组合管理理论
传统量化 ───────────→ 衍生品定价
 
因子投资理论 ─────────→ 衍生品定价
组合管理理论 ─────────→ 风险模型体系

七大模块

  1. 数理金融

  2. 计量经济学

  3. 统计套利理论

  4. 因子投资理论

  5. 衍生品定价

  6. 高频交易 & 市场微观结构

  7. 组合管理 & 风险模型


3. 数理金融(传统量化的理论基石)

这是传统量化与 ML 量化最大的分野。

ML 量化可以不懂随机微积分,传统量化通常不行。

3.1 随机微积分

  • 测度论基础(σ-代数、测度)

  • 布朗运动的性质与构造

  • 伊藤积分定义与计算

  • 伊藤引理(多维形式)

  • 随机微分方程(SDE)求解

  • Girsanov 定理(测度变换)

  • Feynman-Kac 公式

  • 停时理论

3.2 无套利定价理论

  • 无套利条件(FTAP 第一 / 第二)

  • 风险中性测度(Q 测度)

  • 等价鞅测度存在性

  • 复制组合 & 完备市场

  • 风险中性定价公式

  • 远期测度 & T 远期中性

  • 换元测度技巧

3.3 资产价格模型

  • 几何布朗运动(GBM)

  • Heston 随机波动率模型

  • SABR 模型

  • 跳跃扩散(Merton / Kou)

  • 方差 Gamma 模型

  • Vasicek / CIR 利率模型

  • HJM 利率框架

  • 多因子利率模型

3.4 我的补充理解

这一部分更像传统金融工程、衍生品 desk、利率 desk、结构化产品 desk 的数学地基。

如果你的目标主要是:

  • 中低频方向性策略

  • 截面多空

  • crypto 因子研究

  • 永续合约时序 / 截面策略

那么这部分不是最先投入最大精力的地方。
但如果你要进入:

  • 期权

  • 波动率交易

  • 利率衍生品

  • 信用结构化

  • 做市定价引擎

那这部分就是硬门槛。


4. 计量经济学(传统量化的统计基础)

这是传统量化区别于纯工程师的核心竞争力之一:

知道如何正确地从数据中得出可信的统计推断,而不是跑出一堆数字就信以为真。

4.1 经典回归理论

  • OLS 假设(Gauss-Markov 定理)

  • 异方差性(Heteroskedasticity)检验与修正

  • 自相关检验(Durbin-Watson / LM 检验)

  • 多重共线性诊断(VIF)

  • WLS / GLS 广义最小二乘

  • HAC 稳健标准误(Newey-West)

  • 工具变量(IV)& 两阶段最小二乘(2SLS)

  • 虚假回归问题及处理

4.2 时间序列计量

  • 单位根检验(ADF / PP / KPSS)

  • 协整检验(Engle-Granger / Johansen)

  • 向量自回归(VAR)模型

  • 误差修正模型(VECM)

  • 结构突变检验(Chow / Bai-Perron)

  • ARCH 效应检验 & GARCH 估计

  • 脉冲响应函数(IRF)

  • 方差分解(Forecast Error Variance Decomposition)

4.3 面板数据方法

  • 固定效应(FE)vs 随机效应(RE)

  • Hausman 检验(FE vs RE 选择)

  • Fama-MacBeth 两步回归(横截面定价)

  • 双重差分(DID)

  • 面板数据的异方差 & 序列相关处理

  • Driscoll-Kraay 标准误

4.4 因果推断(现代计量前沿)

  • 潜在结果框架(Rubin Causal Model)

  • 断点回归(RDD)

  • 合成控制法

  • 事件研究法(Event Study)

  • 回归不连续设计

  • Granger 因果 vs 真实因果的区别

4.5 我的补充理解

如果你是做研究而不是单纯做系统,这一块通常是最值得优先投入的模块之一。

因为大量实战问题,最后真正区分研究水平的不是:

  • 会不会调包

  • 会不会跑回测

  • 会不会堆很多特征

而是:

  • 你是否知道检验对象是什么

  • 你是否知道该用截面方法还是时间序列方法

  • 你是否知道统计显著和经济显著的差别

  • 你是否知道样本外是否仍成立

  • 你是否知道结果是不是结构变化、数据挖掘或者口径问题造成的假象

对中低频、因子、crypto、CTA、永续合约研究来说,计量能力的重要性极高。


5. 统计套利理论(传统量化核心策略)

5.1 配对交易

  • 相关性配对 vs 协整配对

  • 协整向量估计(Johansen)

  • 价差建模(OLS / Kalman)

  • 半衰期估计(Ornstein-Uhlenbeck)

  • 入场 / 出场阈值设定

  • 动态对冲比率(Time-varying hedge ratio)

  • 配对筛选与稳定性检验

5.2 均值回归模型

  • Ornstein-Uhlenbeck(OU)过程

  • OU 参数估计(MLE / 矩估计)

  • 最优停时理论(最优入 / 出场)

  • 多资产 OU 过程

  • 均值回归速度 & 波动率关系

  • 均值回归检验(Variance Ratio 检验)

5.3 套利策略类型

  • 期现套利(现货 vs 期货定价)

  • 跨期套利(近月 vs 远月)

  • 跨品种套利(铁矿 vs 螺纹)

  • ETF 套利(折溢价套利)

  • 可转债套利(转换价值套利)

  • ADR 套利(A/H 股溢价)

  • 指数成分股套利

5.4 我的补充理解

这部分在很多人理解里容易被误读成“统计套利 = 均值回归”。

其实更准确地说:

  • 统计套利是一个更大的框架

  • 均值回归是其中一类重要建模方式

  • 协整配对、价差回复、残差修复、相对价值、期现偏离修复,都可以落在统计套利的大框架内

对你当前研究很相关的点有几个:

第一,配对不是目的,稳定关系才是目的

真正关键的不是找两个“看起来相关”的资产,而是找:

  • 稳定传导关系

  • 可解释的相对偏离

  • 有交易闭环的价差结构

  • 成本后仍存在的修复机制

第二,均值回归不是“价格跌了就会回”

而是:

  • 存在一个相对稳定的均衡关系

  • 偏离出现后,未来偏离有向均值收敛的统计倾向

  • 这种倾向在交易成本、延迟、风控约束后仍可获利

第三,统计套利对“失效机制”非常敏感

最常见的失效来源包括:

  • 结构断裂

  • 关系切换

  • regime 变化

  • 市场流动性变化

  • 拥挤交易

  • 成本和冲击吞噬微弱 edge


6. 因子投资理论(传统量化的主战场)

这是传统量化研究员最核心的竞争力之一:

不是用 ML 挖因子,而是从理论出发理解为什么某个因子会有风险溢价。

6.1 经典因子体系(必须精通)

  • 价值因子:B/P、E/P、CF/P、S/P

  • 规模因子:市值、自由流通市值

  • 动量因子:12-1 月动量、短期反转

  • 质量因子:ROE、毛利率、应计项

  • 低波动因子:Beta 异象、特异波动

  • 流动性因子:Amihud、换手率

  • 盈利因子:RMW(Fama-French 五因子)

  • 投资因子:CMA(资产增长率)

6.2 因子溢价的来源理论

  • 风险补偿理论(理性定价)

  • 行为金融解释(投资者偏差)

  • 市场摩擦(流动性溢价)

  • 数据挖掘 vs 真实 Alpha 区分

  • 经济周期与因子轮动关系

  • 因子拥挤(Crowding)风险

  • 跨市场因子可移植性检验

6.3 因子研究方法论

  • Fama-MacBeth 横截面回归

  • 分组(Quintile / Decile)分析

  • IC / ICIR 评价体系

  • 因子 t 统计量 & 多空组合

  • 特征 vs 协方差风险辨析

  • 因子正交化(施密特 / 回归残差)

  • 因子衰减曲线分析

  • 样本外检验的严格方法

6.4 Barra 风险模型深度

  • 结构化风险模型框架

  • 因子收益率估计(WLS 横截面)

  • 特异性风险估计(EWMA)

  • 协方差矩阵收缩处理

  • CNE6 / GEM3 模型理解

  • 组合风险归因(因子 vs 特异)

  • Alpha 对齐问题(Alpha Alignment)

6.5 我的补充理解

这一块对你非常重要。

因为你现在一直在思考的很多问题,本质上都落在这一层:

  • 截面打分和排序的区别

  • IC / ICIR 的使用边界

  • 一个方向到底适合做截面、时间序列还是规则触发

  • 因子是不是只是状态变量 / 过滤变量

  • 单个 idea 如何推进到 mandate / signal ready / backtest ready

因子投资理论真正重要的,不只是“因子有哪些”,而是下面这几件事:

6.5.1 因子不是特征堆砌,而是风险溢价假说

好的传统量化研究会先问:

  • 这个因子为什么应该有效?

  • 它补偿了什么风险?

  • 它对应什么行为偏差?

  • 它在什么市场阶段应更强 / 更弱?

  • 它为什么不会立刻被套利掉?

6.5.2 因子研究的关键不是高 IC,而是稳健可组合

一个因子最终是否有价值,要看:

  • 稳定性

  • 容量

  • 成本后收益

  • 与已有因子的相关性

  • 在组合中的边际贡献

  • 回撤性质

  • regime 敏感性

6.5.3 传统量化里,因子研究本质上是“横截面资产定价”

也就是:

  • 研究哪些特征能解释未来截面收益差异

  • 研究这些特征是不是带有可持续风险补偿或行为偏差

  • 再决定是否可以交易化


7. 衍生品定价(传统量化的专属领地)

7.1 期权定价进阶

  • Black-Scholes-Merton 推导

  • 二叉树模型(CRR / LR)

  • 有限差分法(PDE 数值解)

  • 蒙特卡洛定价(方差缩减技术)

  • 随机波动率模型(Heston / SABR)

  • 局部波动率模型(Dupire)

  • 波动率曲面校准

  • 美式期权提前行权定价

7.2 利率衍生品

  • 利率互换(IRS)定价

  • 上限 / 下限(Cap / Floor)定价

  • Swaption 定价

  • 短利率模型(Vasicek / Hull-White)

  • LMM / BGM 市场模型

  • 利率曲线 Bootstrap 构建

  • OIS 折现 & CSA 附件影响

7.3 信用衍生品

  • CDS 定价(强度模型)

  • 违约概率估计(结构模型 / 简约模型)

  • Merton 结构模型

  • CDO / CLO 结构化产品定价

  • 信用利差建模

  • Counterparty 风险(CVA / DVA)

7.4 我的补充理解

这是传统量化中最“硬核金融工程”的部分。

它和很多中低频选股 / 因子策略最大的差别在于:

  • 理论约束强

  • 无套利约束强

  • 需要精确定价和风险对冲

  • 对数学、数值方法、校准和 Greeks 理解要求非常高

这一块比较不适合“只追求先做出一个赚钱策略”的早期研究者作为第一优先级,
但如果未来你要做:

  • crypto 期权

  • 波动率面

  • 做市定价

  • 结构化产品

  • 利率 / 信用产品

那必须系统进入这一层。


8. 高频交易 & 市场微观结构(传统量化前沿)

8.1 微观结构理论

  • Kyle (1985) 模型:内幕交易定价

  • Glosten-Milgrom 模型:价差分解

  • Avellaneda-Stoikov 做市模型

  • 订单流毒性(VPIN)度量

  • 价格冲击的永久 vs 临时分解

  • 知情交易概率(PIN)

  • 价格发现过程(Hasbrouck 模型)

  • 做市商库存模型(Ho-Stoll)

8.2 高频数据分析

  • Tick 数据清洗(错误成交过滤)

  • 日内波动率模式(U 形曲线)

  • 实现波动率与二次变差

  • 已实现协方差矩阵估计

  • 微观噪声模型(Zhang 两尺度)

  • 逐笔成交数据特征分析

  • 订单簿重建 & Level-2 分析

8.3 高频策略类型

  • 做市策略(Market Making)

  • 延迟套利(Latency Arbitrage)

  • 统计套利(毫秒级)

  • 订单流预测(短期价格方向)

  • 冰山单探测策略

  • 交易所间套利

  • 期现高频套利

8.4 最优执行理论

  • Almgren-Chriss 最优执行框架

  • 交易前沿(Efficient Trading Frontier)

  • 动态规划求解最优策略

  • 随机控制在执行中的应用

  • 市场冲击的线性 vs 非线性模型

  • 回撤成本(Reversion Cost)建模

8.5 我的补充理解

如果说因子投资是机构传统量化的主战场之一,那么微观结构就是机构交易能力和执行能力的深水区。

很多人会把策略研究和执行割裂开来,但实际上:

  • 一个信号是否能赚钱,常常不是由预测能力决定

  • 而是由执行质量、冲击成本、订单簿状态、容量约束决定

这对 crypto 市场尤其重要,因为:

  • 流动性分层明显

  • 做市深度经常不稳定

  • 交易所结构差异大

  • 短时冲击、资金费率、清算机制、maker/taker 结构都会改变 edge 兑现方式

所以即便不是做纯 HFT,理解部分微观结构也很有必要。


9. 组合管理 & 风险模型(机构运营核心)

9.1 组合构建理论

  • Markowitz 有效前沿(完整推导)

  • Black-Litterman 模型

  • Michaud 重采样优化

  • 风险平价 & 等风险贡献

  • 最大分散化(Max Diversification)

  • 最小方差组合(GMV)

  • 条件 VaR 约束组合优化

  • Transaction Cost-Aware 再平衡

9.2 协方差矩阵估计

  • 样本协方差矩阵的问题

  • Ledoit-Wolf 收缩估计

  • 因子模型协方差(Barra 结构)

  • 随机矩阵理论(RMT)信号分离

  • 指数加权协方差(EWMA)

  • DCC-GARCH 动态条件相关

  • 高维协方差的非线性收缩

9.3 绩效归因深度

  • Brinson-Hood-Beebower 归因

  • 因子收益归因(Barra 多因子)

  • Alpha 与 Beta 的严格分解

  • 交易成本归因(执行质量)

  • 主动收益 vs 主动风险(IR)

  • 基本法则(Grinold 基本法则)

  • 策略容量与 IR 的权衡

9.4 我的补充理解

这是很多个人研究者最容易低估的一层。

很多人会把注意力集中在:

  • 想法

  • 因子

  • 模型

  • 回测曲线

但机构真正赚钱,靠的不只是发现信号,更靠:

  • 怎样组合多个信号

  • 怎样控制风险暴露

  • 怎样降低组合层面回撤

  • 怎样在容量和换手之间平衡

  • 怎样让 Alpha 真正转化成可实现收益

在实际研究里,很多单策略看起来不错,但一进组合就会暴露问题:

  • 和已有 alpha 重复

  • 风险暴露过高

  • 回撤同质化

  • 成本太高

  • 容量太差

  • 对 regime 过于敏感

所以组合管理不是“研究完成后的最后一步”,而应尽早介入研究判断。


10. 传统量化 vs ML 量化:核心差异对比

维度传统量化ML 量化
理论基础数理金融 / 计量经济学 / 无套利定价统计学习理论 / 优化 / 信息论
因子来源理论驱动,有经济学解释数据驱动,可解释性弱
核心工具SDE / 回归 / 优化 / 蒙特卡洛LightGBM / LSTM / Transformer / RL
过拟合风险相对较低(参数少,有理论约束)极高(需要严格的时序验证框架)
擅长资产衍生品 / 固定收益 / 高频股票选择 / 因子挖掘 / 中低频
可解释性强,每个参数都有金融含义弱,黑箱特性难以向 LP 解释
机构门槛数学基础极高(博士常见)工程能力强,数学门槛相对低
融合趋势用 ML 挖掘信号,用传统框架约束风险和执行用 ML 挖掘信号,用传统框架约束风险和执行

10.1 我的补充修正

这张对比图的方向是对的,但略有“二元对立化”,更准确的表达应该是:

传统量化也会过拟合

不是传统量化就不会过拟合,而是:

  • 参数通常更少

  • 理论约束更强

  • 搜索空间更窄

  • 所以相对更不容易严重失控

ML 也不一定完全不可解释

不是 ML 一定不可解释,而是:

  • 纯黑箱模型可解释性差

  • 树模型、稀疏模型、广义加性模型等仍可部分解释

  • 真正困难的是“金融因果解释”而不是“普通特征重要性解释”

传统 vs ML 的更本质区别

更本质的区别是:

  • 传统量化 更适合强理论约束、强结构、低维、金融解释要求高的问题

  • ML 量化 更适合高维弱信号、非线性、多源异构数据的问题

顶级机构的现实做法

现实里,顶级机构不是二选一,而是融合:

  • 用传统框架界定研究边界

  • 用统计方法控制伪发现

  • 用 ML 提升信号提取能力

  • 用风险模型和执行模型完成落地


11. 推荐书单

书名作者方向重要程度
Stochastic Calculus for Finance I & IIShreve数理金融★★★★★
Options, Futures, and Other DerivativesJohn Hull衍生品定价★★★★★
Active Portfolio ManagementGrinold & Kahn因子投资★★★★★
EconometricsHayashi计量经济学★★★★★
Market Microstructure TheoryO’Hara微观结构★★★★☆
The Econometrics of Financial MarketsCampbell, Lo, MacKinlay金融计量★★★★★
Interest Rate ModelsBrigo & Mercurio利率衍生品★★★★☆
Algorithmic and High-Frequency TradingCartea, Jaimungal高频与执行★★★★★
Expected ReturnsIlmanen因子溢价★★★★☆
Efficiently InefficientLasse Pedersen对冲基金策略★★★★☆

12. 一句话总结

传统量化的壁垒,是你能从第一性原理推出每一个公式,并知道每个假设在什么市场条件下会失效。
ML 量化的壁垒,是工程和数据。
顶级机构最稀缺的是能把两套体系融合的人——用传统金融理论约束 ML 模型的搜索空间,用 ML 方法提升传统因子的信号质量。


13. 从实战角度重构:这张图不是“平均学习路线”

这张图更像是 机构传统量化知识地图,不是 个人或团队的实战优先级地图

也就是说,这 7 大模块不是都应该平均投入。


14. 按不同 desk / 方向重排优先级

14.1 如果做中低频 Alpha / 因子 / CTA / 永续合约研究

更高优先级通常是:

  • 计量经济学

  • 因子投资理论

  • 组合管理与风险模型

  • 部分统计套利理论

  • 部分市场微观结构

  • 少量 ML 与优化

14.2 如果做做市 / 高频 / 执行

更高优先级通常是:

  • 市场微观结构

  • 高频数据处理

  • 最优执行

  • 风险控制

  • 工程系统能力

  • 做市库存与冲击模型

14.3 如果做期权 / 利率 / 结构化产品

更高优先级通常是:

  • 数理金融

  • 无套利定价

  • PDE / 蒙特卡洛

  • 波动率曲面

  • 校准与风险对冲

  • 利率 / 信用模型


15. 对当前你这类研究更相关的主线

结合你当前长期关注的问题,更 relevant 的不是先把所有随机微积分、利率模型、高频微观结构都完整学完,而是先抓住下面这条主线:

15.1 第一层:研究问题分类能力

每个 idea 一上来先问:

  • 这是 截面问题 吗?

  • 这是 时间序列问题 吗?

  • 这是 规则触发问题 吗?

  • 这是 预测问题排序问题,还是 状态过滤问题

  • 这是 独立信号,还是只适合作为 regime filter

  • 这是 单资产逻辑,还是 相对价值逻辑

15.2 第二层:统计验证能力

  • 样本内 vs 样本外

  • train / validate / test / holdout 的切分

  • 稳健性检验

  • 参数扰动检验

  • 结构断裂检验

  • 多重假设检验

  • 成本后是否仍有效

  • 是否只是某几个阶段驱动结果

15.3 第三层:组合与落地能力

  • 单信号是否能进入组合

  • 与已有信号是否高度重复

  • 是否有边际贡献

  • 容量是否够

  • 滑点 / 冲击之后是否还成立

  • 风险暴露是否可控

  • 是否能与其他策略形成互补


16. 图片之外,实战中还缺的一层:研究工程与治理

如果说图片展示的是“知识体系”,那机构真正的壁垒还包括另一层:

八、研究工程与治理(实战极其关键)

16.1 研究命题治理

  • Mandate 定义

  • 研究边界定义

  • 成功标准定义

  • 失败标准定义

  • 假设拆解与 falsification

16.2 数据治理

  • 数据口径统一

  • 对齐方式定义

  • 缺失处理

  • 幸存者偏差控制

  • 前视偏差控制

  • 时间戳一致性

  • 可交易性校验

16.3 特征治理

  • 特征定义与版本化

  • 滞后规则

  • 归一化口径

  • 去极值 / 标准化

  • 暴露中性化

  • 生产可重现性

16.4 回测治理

  • 手续费

  • 冲击成本

  • 融资 / 资金费率

  • 杠杆限制

  • 换仓约束

  • 容量限制

  • 流动性过滤

  • 执行假设透明化

16.5 实验治理

  • train / validate / test / holdout

  • 多重检验控制

  • 参数扫描约束

  • artifact 归档

  • 图表 / 日志 / 配置 / 随机种子管理

  • 失败实验保留与复用

16.6 阶段 gate 治理

  • data ready

  • signal ready

  • portfolio ready

  • shadow ready

  • no-go / retry / conditional pass / child lineage

16.7 我的补充理解

很多机构真正的优势,并不只是“知道哪些模型”,而是:

  • 研究流程严谨

  • 审核机制明确

  • 失败研究可复用

  • 决策链条透明

  • 从 idea 到 shadow 有统一协议

这比单独多学一个模型重要得多。


17. 如果压缩成最小可用学习路径

如果把整张图压缩成更适合实战的“最小可用学习路线”,我会这么排:

阶段 1:统计与研究基本功

  • 概率统计

  • 回归

  • 时间序列

  • 假设检验

  • 回测与样本外验证

阶段 2:因子与组合

  • 因子构建

  • IC / ICIR / 分组收益

  • 风险模型

  • 组合优化

  • 交易成本与容量

阶段 3:策略专题

  • 趋势

  • 均值回归

  • 套利

  • 事件驱动

  • 截面多空

  • 时序择时

  • 执行与风控

阶段 4:高级专题

  • 微观结构

  • 衍生品定价

  • 高频

  • 结构化风险模型

  • ML / 深度学习融合


18. 最终总结:如何正确理解这张图

这张图的价值,不在于告诉你“要学 7 大模块里所有内容”,而在于说明:

  1. 传统量化是一套完整体系,不是几种策略技巧

  2. 机构研究员的核心优势来自理论、统计、组合、风险、执行的闭环

  3. 不同方向需要不同的知识优先级

  4. 真正的研究能力,不是只会找信号,而是知道如何把一个 idea 从假设推进到可交易资产

  5. 顶级机构稀缺的不是单纯传统派或单纯 ML 派,而是能把两者融合的人


19. 最后一句话版本

传统量化的核心,不是“背会模型目录”,而是用理论约束研究、用统计验证假设、用组合和执行把信号变成真正可实现的收益。”


如果你要,我下一步可以继续把这份内容改成更规整的 .md 文件格式版本,我会加上更漂亮的标题层级、目录锚点,以及更适合 Obsidian / Typora 直接保存的格式。