统计套利理论 (Statistical Arbitrage)
模块编号:第三支柱
前置知识:计量经济学(经典回归、时间序列计量)
难度等级:⭐⭐⭐⭐
预计学习时间:6-8 小时
模块简介
统计套利是传统量化最核心的策略框架之一。但也是被误解最多的一个概念。
最常见的误解是:统计套利 = 均值回归 = 跌了就买。
这个理解是错的。统计套利是一个更大的框架,均值回归只是其中一种建模方式。统计套利的本质是:利用资产之间的统计关系(而非基本面估值)来构建交易策略。
统计套利的完整框架:
┌─────────────────────────────────────────────────────────────┐
│ 统计套利 ≠ 均值回归 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 统计套利 = 基于统计关系的套利 │
│ │
│ ├── 配对交易 (协整关系 → 价差回归) │
│ ├── 均值回归 (OU 过程 → 偏离修复) │
│ ├── 期现套利 (定价偏差 → 基差修复) │
│ ├── 跨期套利 (日历价差 → 曲线修复) │
│ ├── 跨品种套利 (产业链关系 → 比价修复) │
│ ├── ETF 套利 (折溢价 → 申赎修复) │
│ └── 可转债套利 (转换价值 → 转债修复) │
│ │
└─────────────────────────────────────────────────────────────┘
核心理念:统计套利不是”赌价格会回归”,而是”发现两个(或多个)资产之间存在的稳定统计关系,当这种关系暂时偏离时,押注它终将修复”。
学习目标
完成本模块后,你将能够:
- 区分相关性与协整:理解为什么高相关不等于可以交易
- 掌握配对交易全流程:从筛选、检验、建模到信号生成和回测
- 理解均值回归的数学本质:用 OU 过程建模价差,估计参数
- 认识多种套利类型:期现、跨期、跨品种、ETF、可转债
- 理解套利策略的共同风险:结构断裂、Regime 变化、拥挤交易
统计套利在传统量化中的位置
┌─────────────────────────────────────────────────────────────────┐
│ 传统量化研究全景 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 数理金融 ──────┐ │
│ 计量经济学 ────┼──→ 统计套利 ──→ 策略实现 ──→ 组合管理 │
│ 市场结构 ──────┘ │
│ │
│ 统计套利是"连接理论和策略的桥梁" │
│ 它把计量工具(协整、回归、假设检验)转化为可交易信号 │
│ │
└─────────────────────────────────────────────────────────────────┘
统计套利的关键特征:
| 特征 | 说明 |
|---|---|
| 理论基础 | 计量经济学(协整、平稳性、回归) |
| 核心假设 | 资产间存在可识别的统计关系 |
| 风险来源 | 关系断裂、修复延迟、成本吞噬 |
| 典型频率 | 日频到周频为主 |
| 适用市场 | 股票、期货、ETF、可转债 |
文件导航
| 文件 | 内容 | 预计时间 | 难度 |
|---|---|---|---|
| 01-配对交易 | 相关性 vs 协整、Engle-Granger、Johansen、价差建模、Z-score 信号、Kalman Filter 动态对冲、完整回测系统 | 2.5 小时 | ⭐⭐⭐⭐ |
| 02-均值回归模型 | OU 过程、参数估计、半衰期、最优入场出场、Hurst 指数、完整回测示例 | 2 小时 | ⭐⭐⭐⭐ |
| 03-套利策略类型 | 期现、跨期、跨品种、ETF、可转债套利,各策略对比与共同风险 | 1.5 小时 | ⭐⭐⭐ |
总计:约 6 小时
推荐学习路径
起点
│
├→ 01-配对交易 ─────────────────────────────────┐
│ [统计套利最经典的策略形态] │
│ [从"两个相关股票"出发] │
│ │
├→ 02-均值回归模型 ─────────────────────────────┤
│ [配对交易背后的数学基础] │
│ [从"偏离了就会回归"出发] │
│ │
├→ 03-套利策略类型 ─────────────────────────────┘
│ [统计套利的广度]
│ [从"除了配对交易还有什么"出发]
│
└→ 终点:建立统计套利完整认知框架
学习建议:
- 先建立直觉:每个文件都从直觉和动机出发,不要急着跳到公式
- 动手运行代码:所有代码使用模拟数据,不需要外部 API
- 反复对比:把”相关性 vs 协整”这个区别想透,这是整个模块的基础
- 关注风险:统计套利最怕的不是模型错,而是关系变了你不知道
核心知识点预览
统计套利的共同逻辑
所有统计套利策略都遵循同一个底层逻辑:
发现关系 → 量化关系 → 监控偏离 → 押注修复 → 控制风险
┌──────────┐ ┌──────────┐ ┌──────────┐
│ 发现关系 │ → │ 量化关系 │ → │ 监控偏离 │
│ │ │ │ │ │
│ 协整检验 │ │ 对冲比率 │ │ Z-score │
│ 因子暴露 │ │ 价差模型 │ │ 基差/溢价 │
│ 产业链 │ │ 回归方程 │ │ 比价偏离 │
└──────────┘ └──────────┘ └──────────┘
│
┌──────────┐ ┌──────────┐ │
│ 控制风险 │ ← │ 押注修复 │ ← ─────┘
│ │ │ │
│ 止损逻辑 │ │ 做空偏离 │
│ 容量管理 │ │ 做多收敛 │
│ 关系监控 │ │ 中性持仓 │
└──────────┘ └──────────┘
三个最关键的概念
| 概念 | 白话解释 | 数学表达 |
|---|---|---|
| 协整 | 两个序列虽然各自乱走,但它们之间的差值是稳定的 | 残差平稳 |
| 均值回归 | 偏离越大,回归的趋势越强 | OU 过程 |
| 对冲比率 | 做多 A 的同时做空多少 B 才能消除方向性风险 | beta 系数 |
代码环境准备
pip install numpy pandas scipy statsmodels matplotlib| 包名 | 用途 |
|---|---|
| numpy | 数值计算、模拟数据生成 |
| pandas | 时间序列处理 |
| scipy | 统计检验、优化求解 |
| statsmodels | 协整检验、回归分析 |
| matplotlib | 可视化 |
补充资源
推荐阅读:
| 书名 | 作者 | 核心价值 |
|---|---|---|
| Quantitative Trading | Ernest Chan | 配对交易入门,代码友好 |
| Algorithmic Trading | Ernest Chan | 均值回归策略进阶 |
| Advances in Financial Machine Learning | Marcos Lopez de Prado | 统计套利中的 ML 方法 |
| Trading and Hedging with Statistical Arbitrage | Andrew Pole | 统计套利经典,偏机构视角 |
经典论文:
| 论文 | 作者 | 年份 |
|---|---|---|
| Pairs Trading: Performance of a Relative-Value Arbitrage Rule | Gatev, Goetzmann, Rouwenhorst | 2006 |
| Optimal Pairs Trading | Elliott, van der Hoek, Malcolm | 2005 |
| Ornstein-Uhlenbeck Processes for Pairs Trading | Avellaneda, Lee | 2010 |
版本信息
- 创建日期:2026-03-28
- 最后更新:2026-03-28
- 许可:CC BY-NC-SA 4.0