从绝对预测到相对强弱的量化思维转变

引言

在量化投资中,“预测相对强弱”而非”预测绝对价格”是区分”散户思维”与”机构量化思维”的分水岭。这个转变不仅是技术层面的,更是思维层面的质变。

本文将从绝对预测与相对预测的本质差异、市场噪声过滤机制、Alpha/Beta分解理论、评估指标详解等多个维度,全面解析”预测相对强弱”的量化思维。


1. 绝对预测 vs 相对预测的本质

1.1 绝对预测定义

目标:预测资产价格或收益率的绝对值。

数学形式

其中:

  • 时刻的因子特征
  • 时刻的绝对价格
  • 时刻的收益率

示例

  • “明天茅台涨不涨?”
  • “上证指数下个月到多少点?”
  • “比特币年底价格是多少?”

评价体系

  • 准确率(Accuracy):预测方向正确的比例
  • 均方误差(MSE):预测值与真实值的平方误差
  • 均方根误差(RMSE):预测值与真实值的误差平方根

1.2 相对预测定义

目标:预测资产在横截面上的相对强弱(排名)。

数学形式

其中:

  • 时刻的因子特征
  • :资产的横截面排名(标准化到[0,1])

示例

  • “在所有股票里,茅台明天是不是表现最好的那10%?”
  • “在所有DeFi协议中,AAVE未来1个月是否跑赢平均?”
  • “在所有Token中,BTC未来1周是否排名前20%?”

评价体系

  • 信息系数(IC):因子值与未来收益的相关系数

  • 信息比率(IR):IC的均值与标准差之比

1.3 两种思维的对比

维度绝对预测相对预测
预测目标价格/收益率排名/相对强弱
输出空间连续值 排名
噪声敏感性
容错率
适用场景趋势跟踪、择时多因子选股、市场中性
评价体系RMSE/MAEIC/IR
对市场依赖强(依赖Beta)弱(剥离Beta)
对精度要求极高中等(只需要相关性)
风险控制困难容易(分散投资)

1.4 数学对比

绝对预测的困难

假设我们要预测股票 时刻的价格:

其中收益率 可以分解为:

绝对预测的问题

  1. 市场Beta :无法准确预测市场涨跌
  2. 特质收益 :信噪比低,难以准确预测
  3. 噪声 :随机性强,完全无法预测

相对预测的优势

在横截面上,我们比较的是:

由于市场Beta 对所有股票相同,可以约去:

因此,相对预测:

  1. 不依赖市场涨跌:市场涨跌对所有股票影响相同,不影响排名
  2. 剥离市场噪声:只关注”谁比谁强”,不关注”强多少”
  3. 降低预测难度:不需要预测绝对收益,只需要预测相对强弱

2. 市场噪声过滤机制

2.1 市场系统性风险模型

资产收益分解

根据资本资产定价模型(CAPM),资产收益可以分解为:

其中:

  • :资产 时刻的收益
  • :资产 的Alpha(特质收益)
  • :资产 对市场的敏感度
  • :市场在 时刻的收益
  • :随机噪声(期望为0,与市场不相关)

扩展到多因子模型

其中 是第 个因子的收益(如市场、规模、价值等)。

系统性风险 vs 特质风险

  • 系统性风险,无法通过分散投资消除
  • 特质风险,可以通过分散投资消除

2.2 横截面处理的去噪原理

绝对视角的困境

假设市场收益率 (普跌5%),我们有两只股票:

股票AlphaBeta预测收益实际收益
A+2%1.0+2%-3%
B-3%1.0-3%-8%

绝对视角

  • 股票A:预测+2%,实际-3%,误差-5%(看似模型失效)
  • 股票B:预测-3%,实际-8%,误差-5%(看似模型失效)

相对视角

  • 横截面比较:A(-3%)> B(-8%)
  • Alpha比较:A(+2%)> B(-3%)
  • 模型有效!A比B强

横截面处理的去噪原理

在横截面标准化后,我们计算:

其中 时刻的横截面均值, 是标准差。

假设市场收益率

因此:

  • :A强于平均水平
  • :B弱于平均水平

关键洞察

  • 横截面处理自动剔除了市场系统性风险
  • 只保留特质收益 和部分噪声
  • 大大降低了预测难度

2.3 实际案例:普跌环境下的表现

场景设置

2022年A股熊市,上证指数从3700点跌到3000点,跌幅约-19%。

因子:动量因子(20日收益率)

日期上证指数动量因子IC因子IC累计
2022-01-0137000.050.05
2022-02-0136500.040.09
2022-03-0135500.030.12
2022-04-0134000.020.14
2022-05-0132500.010.15
2022-06-013000-0.010.14

绝对视角(困惑)

  • 绝对收益:平均-15%(看似因子失效)
  • 动量因子IC逐渐下降(因子稳定性变差)
  • 结论:动量因子在熊市失效?

相对视角(正确)

  • 虽然全市场普跌,但动量因子IC > 0(因子仍然有效)
  • 买入前20%股票:平均跌幅-10%
  • 卖出后20%股票:平均跌幅-20%
  • 多空收益:-10% - (-20%) = +10%

关键结论

  • 绝对收益:-15%(市场Beta)
  • 相对收益(Alpha):+10%(因子选股能力)
  • 因子有效!

2.4 市场噪声过滤的数学证明

命题:横截面标准化可以完全消除系统性风险(假设所有资产Beta相同)。

证明

设市场收益率 ,所有资产的Beta相同

资产 的收益:

横截面均值:

其中 是Alpha均值, 是噪声均值(期望为0)。

横截面标准化:

由于

结论

  • 系统性风险 被完全消除
  • 只保留特质收益 和噪声
  • 横截面处理实现了”市场中性”

3. Alpha/Beta分解理论

3.1 CAPM模型基础

资本资产定价模型(CAPM)

其中:

  • :资产 的期望收益
  • :无风险收益率
  • :资产 对市场的敏感度
  • :市场的期望收益
  • :市场风险溢价

Beta的定义

经济含义

  • :资产收益与市场收益同步
  • :资产收益波动大于市场(进攻型)
  • :资产收益波动小于市场(防御型)

3.2 Alpha的数学定义与分解

扩展的CAPM模型(实际收益 vs 期望收益)

其中:

  • :资产 时刻的Alpha(超额收益)
  • :随机噪声(期望为0)

Alpha的定义

Alpha的来源

Alpha可以分解为三个来源:

来源1:选股能力(Stock Selection)

示例:动量因子选出的股票平均收益+5%,市场平均收益+2%,选股Alpha=+3%。

来源2:择时能力(Market Timing)

示例:预测到市场下跌,提前降低仓位,避免了-5%的损失,择时Alpha=+5%。

来源3:执行能力(Execution)

示例:优化交易时机,降低交易成本,执行Alpha=+0.5%。

总Alpha

3.3 Beta暴露的量化方法

回归估计

使用历史数据回归估计Beta:

其中:

  • :历史数据长度
  • :资产 的平均收益
  • :市场平均收益

多因子暴露

假设有 个因子(市场、规模、价值、动量等),资产 的收益:

矩阵形式:

其中:

  • 个资产的收益向量
  • :Alpha向量
  • :Beta暴露矩阵
  • 个因子的收益向量

回归估计Beta矩阵

其中 是因子收益矩阵, 是资产收益矩阵。

Beta暴露控制

在构建组合时,我们可以控制Beta暴露:

其中 是资产 的权重。

示例:市场中性策略

约束 ,确保组合对市场涨跌中性。

3.4 多因子模型下的Alpha提取

步骤1:计算因子暴露矩阵

\beta_{1,1} & \beta_{1,2} & \cdots & \beta_{1,K} \\ \beta_{2,1} & \beta_{2,2} & \cdots & \beta_{2,K} \\ \vdots & \vdots & \ddots & \vdots \\ \beta_{N,1} & \beta_{N,2} & \cdots & \beta_{N,K} \end{bmatrix} $$ 其中 $\beta_{i,j}$ 是资产 $i$ 对因子 $j$ 的暴露。 **步骤2:回归得到因子收益** $$ \boldsymbol{\lambda} = (\mathbf{B}^T \mathbf{B})^{-1} \mathbf{B}^T \mathbf{R} $$ 其中 $\boldsymbol{\lambda} \in \mathbb{R}^K$ 是 $K$ 个因子的收益向量。 **步骤3:提取Alpha** $$ \boldsymbol{\alpha} = \mathbf{R} - \mathbf{B} \boldsymbol{\lambda} $$ 其中 $\boldsymbol{\alpha} \in \mathbb{R}^N$ 是 $N$ 个资产的Alpha向量。 **经济含义**: $$ \alpha_i = R_i - \sum_{j=1}^K \beta_{i,j} \cdot \lambda_j $$ $\alpha_i$ 表示: - 剔除了所有风格因子暴露后的纯选股能力 - 不依赖市场Beta - 不依赖规模、价值、动量等风格因子 - 只捕获"纯Alpha" ### 3.5 Alpha与IC的关系 **命题**:IC是Alpha的横截面相关性。 **证明**: 定义: - $F_t$:$t$ 时刻的因子值向量 - $R_{t \to t+h}$:$t+h$ 时刻的收益向量 IC的定义: $$ \text{IC} = \text{Corr}(F_t, R_{t \to t+h}) = \frac{\text{Cov}(F_t, R_{t \to t+h})}{\sigma_{F_t} \sigma_{R_{t \to t+h}}} $$ 假设因子已经标准化($\sigma_{F_t} = 1$),收益已经中性化($\bar{R} = 0$): $$ \text{IC} = \frac{1}{\sigma_R} \cdot \frac{1}{N} \sum_{i=1}^N F_{i,t} \cdot R_{i,t \to t+h} $$ $$ = \frac{1}{\sigma_R} \cdot \text{Mean}(F_t \odot R_{t \to t+h}) $$ 其中 $\odot$ 是逐元素乘法。 如果因子 $F_t$ 与Alpha $\alpha_t$ 完全相关($F_t \propto \alpha_t$): $$ \text{IC} \propto \text{Mean}(\alpha_t \odot R_{t \to t+h}) $$ 由于 $R_{t \to t+h} = \alpha_{t \to t+h} + \text{Beta} + \text{Noise}$,且横截面处理已剔除Beta: $$ \text{IC} \propto \text{Mean}(\alpha_t \odot \alpha_{t \to t+h}) $$ **结论**:IC度量的是因子与未来Alpha的横截面相关性 $\quad \blacksquare$ --- ## 4. 评估指标详解 ### 4.1 IC(信息系数) **定义** IC(Information Coefficient,信息系数)是因子值与未来收益的相关系数。 **公式**: $$ \text{IC}_t = \text{Corr}(F_t, R_{t \to t+h}) = \frac{\text{Cov}(F_t, R_{t \to t+h})}{\sigma_{F_t} \sigma_{R_{t \to t+h}}} $$ 其中: - $F_t$:$t$ 时刻的因子值向量 - $R_{t \to t+h}$:$t+h$ 时刻的收益向量 - $\sigma_{F_t}$:因子值的横截面标准差 - $\sigma_{R_{t \to t+h}}$:收益的横截面标准差 **计算示例** 假设有5只股票: | 股票 | 因子值 | 未来收益 | |------|--------|---------| | A | 1.5 | +5% | | B | 1.0 | +2% | | C | 0.5 | 0% | | D | 0.0 | -2% | | E | -0.5 | -5% | **计算均值**: $$ \bar{F} = (1.5 + 1.0 + 0.5 + 0.0 - 0.5) / 5 = 0.5 $$ $$ \bar{R} = (5\% + 2\% + 0\% - 2\% - 5\%) / 5 = 0\% $$ **计算标准差**: $$ \sigma_F = \sqrt{((1.5-0.5)^2 + (1.0-0.5)^2 + \cdots + (-0.5-0.5)^2) / 5} = 0.707 $$ $$ \sigma_R = \sqrt{((5\%-0)^2 + (2\%-0)^2 + \cdots + (-5\%-0)^2) / 5} = 3.74\% $$ **计算协方差**: $$ \text{Cov} = \frac{1}{5} \sum_{i=1}^5 (F_i - \bar{F})(R_i - \bar{R}) $$ $$ = \frac{1}{5} [(1.5-0.5)(5\%-0) + (1.0-0.5)(2\%-0) + \cdots + (-0.5-0.5)(-5\%-0)] $$ $$ = \frac{1}{5} [1 \cdot 5\% + 0.5 \cdot 2\% + 0 \cdot 0\% + (-0.5) \cdot (-2\%) + (-1) \cdot (-5\%)] $$ $$ = \frac{1}{5} [5\% + 1\% + 0\% + 1\% + 5\%] = \frac{12\%}{5} = 2.4\% $$ **计算IC**: $$ \text{IC} = \frac{\text{Cov}}{\sigma_F \sigma_R} = \frac{2.4\%}{0.707 \times 3.74\%} = 0.905 $$ **解释**: - IC = 0.905:因子与未来收益高度正相关 - IC = 0.05:因子与未来收益弱正相关 - IC = 0:因子与未来收益不相关 - IC = -0.05:因子与未来收益弱负相关 **经济含义**: - IC = 0.05:因子解释了 $0.05^2 = 0.25\%$ 的收益方差 - IC = 0.1:因子解释了 $0.1^2 = 1\%$ 的收益方差 - IC = 0.2:因子解释了 $0.2^2 = 4\%$ 的收益方差 **阈值**: - IC > 0.05:有效的因子 - IC > 0.08:非常好的因子 - IC > 0.1:极好的因子(在A股市场中罕见) **统计显著性检验**: $$ t = \text{IC} \cdot \sqrt{\frac{N}{1 - \text{IC}^2}} $$ 其中 $N$ 是横截面股票数。 **示例**:IC = 0.05,N = 500 $$ t = 0.05 \cdot \sqrt{\frac{500}{1 - 0.05^2}} = 0.05 \cdot \sqrt{502.5} = 1.12 $$ 查t分布表: - $t > 2$:显著(95%置信度) - $t > 2.58$:非常显著(99%置信度) 本例 $t = 1.12 < 2$,不显著,说明IC = 0.05可能来自随机噪声。 ### 4.2 Rank IC(排序相关系数) **定义** Rank IC是因子排名与收益排名的Spearman相关系数。 **公式**: $$ \text{RankIC}_t = \text{Corr}(\text{Rank}(F_t), \text{Rank}(R_{t \to t+h})) $$ 其中 $\text{Rank}(\cdot)$ 是排序函数。 **计算示例** 使用前面的例子: | 股票 | 因子值 | 排名 | 未来收益 | 排名 | |------|--------|------|---------|------| | A | 1.5 | 5 | +5% | 5 | | B | 1.0 | 4 | +2% | 4 | | C | 0.5 | 3 | 0% | 3 | | D | 0.0 | 2 | -2% | 2 | | E | -0.5 | 1 | -5% | 1 | **计算Spearman相关系数**: 由于排名完全一致,Rank IC = 1.0。 **优势**: - **对异常值鲁棒**:只看排名,不看具体数值 - **适合非线性关系**:可以捕捉单调但不线性的关系 - **适合偏态分布**:因子或收益分布严重偏态时仍然有效 **IC vs Rank IC**: | 维度 | IC | Rank IC | |------|----|----| | **计算方式** | Pearson相关 | Spearman相关 | | **对异常值** | 敏感 | 鲁棒 | | **关系假设** | 线性 | 单调 | | **适用场景** | 正态分布 | 任意分布 | | **信息损失** | 小 | 大 | **何时使用Rank IC**: - 因子或收益分布严重偏态 - 存在极端异常值 - 因子与收益的关系是非线性的 ### 4.3 IR(信息比率) **定义** IR(Information Ratio,信息比率)是IC的均值与标准差之比,度量因子的稳定性。 **公式**: $$ \text{IR} = \frac{\text{Mean}(\text{IC})}{\text{Std}(\text{IC})} = \frac{\bar{\text{IC}}}{\sigma_{\text{IC}}} $$ 其中: - $\text{Mean}(\text{IC})$:IC的时间序列均值 - $\text{Std}(\text{IC})$:IC的时间序列标准差 **计算示例** 假设5个月的IC序列: | 月份 | IC | |------|----| | 1 | 0.08 | | 2 | 0.06 | | 3 | 0.04 | | 4 | 0.02 | | 5 | 0.00 | **计算均值**: $$ \bar{\text{IC}} = (0.08 + 0.06 + 0.04 + 0.02 + 0.00) / 5 = 0.04 $$ **计算标准差**: $$ \sigma_{\text{IC}} = \sqrt{\frac{(0.08-0.04)^2 + (0.06-0.04)^2 + \cdots + (0.00-0.04)^2}{5}} = 0.028 $$ **计算IR**: $$ \text{IR} = \frac{0.04}{0.028} = 1.43 $$ **经济含义**: - IR > 1:非常稳定的因子 - IR > 0.7:稳定的因子 - IR > 0.5:可用的因子 - IR < 0.5:因子不稳定 **IR的重要性**: IR比IC更重要,因为: 1. 高IC但低IR:因子表现不稳定,今天IC=0.1,明天IC=-0.05,无法实战 2. 中IC但高IR:因子表现稳定,IC长期维持在0.03-0.05之间,可以实战 **示例对比**: | 因子 | IC均值 | IC标准差 | IR | 评价 | |------|--------|---------|----|----| | A | 0.10 | 0.15 | 0.67 | 不稳定(波动大) | | B | 0.05 | 0.05 | 1.00 | 稳定(波动小) | | C | 0.03 | 0.02 | 1.50 | 非常稳定 | **结论**:因子B虽然IC较低,但IR高,实战效果可能更好。 --- ## 5. 量化投资哲学探讨 ### 5.1 随机游走 vs 趋势跟踪 **随机游走假设(Random Walk Hypothesis)** $$ P_{t+1} = P_t + \varepsilon_{t+1} $$ 其中 $\varepsilon_{t+1}$ 是白噪声,期望为0。 **推论**: - 价格变化不可预测 - IC应接近0 - 策略无法获得超额收益 - 赚取市场Beta **趋势跟踪假设(Trend Following Hypothesis)** $$ P_{t+1} = P_t + \alpha_t + \varepsilon_{t+1} $$ 其中 $\alpha_t$ 是趋势信号,期望不为0。 **推论**: - 价格存在趋势 - IC > 0(动量效应) - 策略可以获得超额收益 - 赚取趋势Alpha **实证证据**: - **短期(1-5天)**:IC ≈ 0.02-0.04,动量效应弱 - **中期(5-20天)**:IC ≈ 0.05-0.08,动量效应中等 - **长期(20-60天)**:IC ≈ 0.08-0.12,动量效应强 **结论**: - 价格不完全随机,存在一定的趋势 - 趋势跟踪策略在A股市场有效 - 但需要通过横截面处理剥离市场风险 ### 5.2 有效市场 vs 套利机会 **有效市场假说(Efficient Market Hypothesis, EMH)** **强有效市场**: - 价格反映所有信息(包括内幕信息) - Alpha应消失 - 无法获得超额收益 **半强有效市场**: - 价格反映所有公开信息 - Alpha应消失 - 无法通过基本面分析获得超额收益 **弱有效市场**: - 价格反映历史价格信息 - 技术分析无效 - 但基本面分析可能有效 **行为金融(Behavioral Finance)** 投资者非理性: - 过度自信(Overconfidence) - 损失厌恶(Loss Aversion) - 羊群效应(Herding) - 锚定效应(Anchoring) **推论**: - Alpha长期存在 - 套利机会长期存在 - 但套利能力有限(风险、成本、流动性) **A股市场的实证证据**: - **因子收益**:价值、动量、质量因子长期IC > 0.05 - **Alpha规模**:每年可获得的Alpha约5%-15% - **套利机会**:长期存在,但逐渐消失(市场越来越有效) **结论**: - A股市场不是完全有效的,存在Alpha机会 - 但Alpha机会有限,需要量化方法系统化挖掘 - 横截面处理是提取Alpha的关键技术 ### 5.3 量化思维总结 **核心思想**: > "我们无法预测市场涨跌,但可以预测相对强弱。" **三个层次的思维转变**: **层次1:承认无知** - 承认自己无法准确预测宏观经济和大盘波动 - 不赌国运涨跌,不赌行业轮动 - 只赌"同一环境下,谁比谁强" **层次2:寻找秩序** - 相信即便在乱世或盛世,资产之间总有"好坏之分" - 通过横截面处理,剔除市场Beta - 寻找稳定的Alpha信号 **层次3:纯化信号** - 通过标准化和中性化,把那些"搭便车"的收益(行业、市值、大盘涨跌)全部扔掉 - 只捕捉那一点点代表公司真正竞争力的纯Alpha - 通过大数定律,分散风险,稳定收益 **量化投资的优势**: 1. **剥离Beta,追求Alpha**: - 绝对预测依赖市场涨跌 - 相对预测剥离市场风险 2. **降低预测难度**: - 不需要预测具体价格 - 只需要预测相对强弱 3. **提高容错率**: - 不需要绝对精确 - 只需要相关性(IC > 0.05) 4. **系统化风险管理**: - 通过分散投资降低特质风险 - 通过对冲降低系统性风险 **量化投资的本质**: 量化投资不是"猜大小",而是: - 系统化地挖掘Alpha - 科学化地管理风险 - 工程化地执行交易 横截面标准化不是数学技巧,而是一种投资策略: > 我们不赌国运涨跌,也不赌行业轮动,我们只赌"同一环境下,谁比谁强"。 --- ## 总结 从"预测绝对价格"到"预测相对强弱"是量化投资思维的核心转变。这个转变不仅是技术层面的,更是哲学层面的质变。 ### 核心要点回顾 1. **绝对预测 vs 相对预测**: - 绝对预测:预测价格/收益的绝对值 - 相对预测:预测横截面上的相对强弱 - 相对预测更稳定、容错率更高 2. **市场噪声过滤**: - 横截面处理可以完全消除系统性风险 - 只保留特质收益Alpha和部分噪声 - 大大降低预测难度 3. **Alpha/Beta分解**: - 总收益 = Alpha + Beta + Noise - Alpha = 选股能力 + 择时能力 + 执行能力 - 横截面处理剥离Beta,只保留Alpha 4. **评估指标**: - IC:因子与未来收益的相关系数 - Rank IC:因子排名与收益排名的相关系数 - IR:IC的稳定性(均值/标准差) 5. **量化投资哲学**: - 承认无知:无法预测市场涨跌 - 寻找秩序:资产之间总有"好坏之分" - 纯化信号:只捕获纯Alpha ### 实践建议 **对于因子研究**: - 关注IC和IR,而不是绝对收益 - 横截面标准化和中性化是必须的 - 选择稳定的因子(高IR),而不仅仅是高IC **对于策略构建**: - 市场中性:剥离Beta,只赚Alpha - 分散投资:通过大数定律降低风险 - 严格止损:控制下行风险 **对于投资哲学**: - 不赌国运,只赌"谁比谁强" - 承认市场有效性的局限,但Alpha长期存在 - 量化投资是科学+工程,不是赌大小 在下一文档中,我们将探讨Qlib特征工程的实践指南,包括特征张量优化、Pipeline配置、因子质量评估、数据泄漏防护等内容。