从绝对预测到相对强弱的量化思维转变
引言
在量化投资中,“预测相对强弱”而非”预测绝对价格”是区分”散户思维”与”机构量化思维”的分水岭。这个转变不仅是技术层面的,更是思维层面的质变。
本文将从绝对预测与相对预测的本质差异、市场噪声过滤机制、Alpha/Beta分解理论、评估指标详解等多个维度,全面解析”预测相对强弱”的量化思维。
1. 绝对预测 vs 相对预测的本质
1.1 绝对预测定义
目标:预测资产价格或收益率的绝对值。
数学形式:
其中:
- : 时刻的因子特征
- : 时刻的绝对价格
- : 时刻的收益率
示例:
- “明天茅台涨不涨?”
- “上证指数下个月到多少点?”
- “比特币年底价格是多少?”
评价体系:
- 准确率(Accuracy):预测方向正确的比例
- 均方误差(MSE):预测值与真实值的平方误差
- 均方根误差(RMSE):预测值与真实值的误差平方根
1.2 相对预测定义
目标:预测资产在横截面上的相对强弱(排名)。
数学形式:
其中:
- : 时刻的因子特征
- :资产的横截面排名(标准化到[0,1])
示例:
- “在所有股票里,茅台明天是不是表现最好的那10%?”
- “在所有DeFi协议中,AAVE未来1个月是否跑赢平均?”
- “在所有Token中,BTC未来1周是否排名前20%?”
评价体系:
-
信息系数(IC):因子值与未来收益的相关系数
-
信息比率(IR):IC的均值与标准差之比
1.3 两种思维的对比
| 维度 | 绝对预测 | 相对预测 |
|---|---|---|
| 预测目标 | 价格/收益率 | 排名/相对强弱 |
| 输出空间 | 连续值 | 排名 |
| 噪声敏感性 | 高 | 低 |
| 容错率 | 低 | 高 |
| 适用场景 | 趋势跟踪、择时 | 多因子选股、市场中性 |
| 评价体系 | RMSE/MAE | IC/IR |
| 对市场依赖 | 强(依赖Beta) | 弱(剥离Beta) |
| 对精度要求 | 极高 | 中等(只需要相关性) |
| 风险控制 | 困难 | 容易(分散投资) |
1.4 数学对比
绝对预测的困难
假设我们要预测股票 在 时刻的价格:
其中收益率 可以分解为:
绝对预测的问题:
- 市场Beta :无法准确预测市场涨跌
- 特质收益 :信噪比低,难以准确预测
- 噪声 :随机性强,完全无法预测
相对预测的优势
在横截面上,我们比较的是:
由于市场Beta 对所有股票相同,可以约去:
因此,相对预测:
- 不依赖市场涨跌:市场涨跌对所有股票影响相同,不影响排名
- 剥离市场噪声:只关注”谁比谁强”,不关注”强多少”
- 降低预测难度:不需要预测绝对收益,只需要预测相对强弱
2. 市场噪声过滤机制
2.1 市场系统性风险模型
资产收益分解
根据资本资产定价模型(CAPM),资产收益可以分解为:
其中:
- :资产 在 时刻的收益
- :资产 的Alpha(特质收益)
- :资产 对市场的敏感度
- :市场在 时刻的收益
- :随机噪声(期望为0,与市场不相关)
扩展到多因子模型:
其中 是第 个因子的收益(如市场、规模、价值等)。
系统性风险 vs 特质风险:
- 系统性风险:,无法通过分散投资消除
- 特质风险:,可以通过分散投资消除
2.2 横截面处理的去噪原理
绝对视角的困境
假设市场收益率 (普跌5%),我们有两只股票:
| 股票 | Alpha | Beta | 预测收益 | 实际收益 |
|---|---|---|---|---|
| A | +2% | 1.0 | +2% | -3% |
| B | -3% | 1.0 | -3% | -8% |
绝对视角:
- 股票A:预测+2%,实际-3%,误差-5%(看似模型失效)
- 股票B:预测-3%,实际-8%,误差-5%(看似模型失效)
相对视角:
- 横截面比较:A(-3%)> B(-8%)
- Alpha比较:A(+2%)> B(-3%)
- 模型有效!A比B强
横截面处理的去噪原理
在横截面标准化后,我们计算:
其中 是 时刻的横截面均值, 是标准差。
假设市场收益率 ,:
因此:
- :A强于平均水平
- :B弱于平均水平
关键洞察:
- 横截面处理自动剔除了市场系统性风险
- 只保留特质收益 和部分噪声
- 大大降低了预测难度
2.3 实际案例:普跌环境下的表现
场景设置
2022年A股熊市,上证指数从3700点跌到3000点,跌幅约-19%。
因子:动量因子(20日收益率)
| 日期 | 上证指数 | 动量因子IC | 因子IC累计 |
|---|---|---|---|
| 2022-01-01 | 3700 | 0.05 | 0.05 |
| 2022-02-01 | 3650 | 0.04 | 0.09 |
| 2022-03-01 | 3550 | 0.03 | 0.12 |
| 2022-04-01 | 3400 | 0.02 | 0.14 |
| 2022-05-01 | 3250 | 0.01 | 0.15 |
| 2022-06-01 | 3000 | -0.01 | 0.14 |
绝对视角(困惑):
- 绝对收益:平均-15%(看似因子失效)
- 动量因子IC逐渐下降(因子稳定性变差)
- 结论:动量因子在熊市失效?
相对视角(正确):
- 虽然全市场普跌,但动量因子IC > 0(因子仍然有效)
- 买入前20%股票:平均跌幅-10%
- 卖出后20%股票:平均跌幅-20%
- 多空收益:-10% - (-20%) = +10%
关键结论:
- 绝对收益:-15%(市场Beta)
- 相对收益(Alpha):+10%(因子选股能力)
- 因子有效!
2.4 市场噪声过滤的数学证明
命题:横截面标准化可以完全消除系统性风险(假设所有资产Beta相同)。
证明:
设市场收益率 ,所有资产的Beta相同 。
资产 的收益:
横截面均值:
其中 是Alpha均值, 是噪声均值(期望为0)。
横截面标准化:
由于 ,:
结论:
- 系统性风险 被完全消除
- 只保留特质收益 和噪声
- 横截面处理实现了”市场中性”
3. Alpha/Beta分解理论
3.1 CAPM模型基础
资本资产定价模型(CAPM):
其中:
- :资产 的期望收益
- :无风险收益率
- :资产 对市场的敏感度
- :市场的期望收益
- :市场风险溢价
Beta的定义:
经济含义:
- :资产收益与市场收益同步
- :资产收益波动大于市场(进攻型)
- :资产收益波动小于市场(防御型)
3.2 Alpha的数学定义与分解
扩展的CAPM模型(实际收益 vs 期望收益):
其中:
- :资产 在 时刻的Alpha(超额收益)
- :随机噪声(期望为0)
Alpha的定义:
Alpha的来源:
Alpha可以分解为三个来源:
来源1:选股能力(Stock Selection)
示例:动量因子选出的股票平均收益+5%,市场平均收益+2%,选股Alpha=+3%。
来源2:择时能力(Market Timing)
示例:预测到市场下跌,提前降低仓位,避免了-5%的损失,择时Alpha=+5%。
来源3:执行能力(Execution)
示例:优化交易时机,降低交易成本,执行Alpha=+0.5%。
总Alpha:
3.3 Beta暴露的量化方法
回归估计
使用历史数据回归估计Beta:
其中:
- :历史数据长度
- :资产 的平均收益
- :市场平均收益
多因子暴露
假设有 个因子(市场、规模、价值、动量等),资产 的收益:
矩阵形式:
其中:
- : 个资产的收益向量
- :Alpha向量
- :Beta暴露矩阵
- : 个因子的收益向量
回归估计Beta矩阵:
其中 是因子收益矩阵, 是资产收益矩阵。
Beta暴露控制
在构建组合时,我们可以控制Beta暴露:
其中 是资产 的权重。
示例:市场中性策略
约束 ,确保组合对市场涨跌中性。
3.4 多因子模型下的Alpha提取
步骤1:计算因子暴露矩阵
\beta_{1,1} & \beta_{1,2} & \cdots & \beta_{1,K} \\ \beta_{2,1} & \beta_{2,2} & \cdots & \beta_{2,K} \\ \vdots & \vdots & \ddots & \vdots \\ \beta_{N,1} & \beta_{N,2} & \cdots & \beta_{N,K} \end{bmatrix} $$ 其中 $\beta_{i,j}$ 是资产 $i$ 对因子 $j$ 的暴露。 **步骤2:回归得到因子收益** $$ \boldsymbol{\lambda} = (\mathbf{B}^T \mathbf{B})^{-1} \mathbf{B}^T \mathbf{R} $$ 其中 $\boldsymbol{\lambda} \in \mathbb{R}^K$ 是 $K$ 个因子的收益向量。 **步骤3:提取Alpha** $$ \boldsymbol{\alpha} = \mathbf{R} - \mathbf{B} \boldsymbol{\lambda} $$ 其中 $\boldsymbol{\alpha} \in \mathbb{R}^N$ 是 $N$ 个资产的Alpha向量。 **经济含义**: $$ \alpha_i = R_i - \sum_{j=1}^K \beta_{i,j} \cdot \lambda_j $$ $\alpha_i$ 表示: - 剔除了所有风格因子暴露后的纯选股能力 - 不依赖市场Beta - 不依赖规模、价值、动量等风格因子 - 只捕获"纯Alpha" ### 3.5 Alpha与IC的关系 **命题**:IC是Alpha的横截面相关性。 **证明**: 定义: - $F_t$:$t$ 时刻的因子值向量 - $R_{t \to t+h}$:$t+h$ 时刻的收益向量 IC的定义: $$ \text{IC} = \text{Corr}(F_t, R_{t \to t+h}) = \frac{\text{Cov}(F_t, R_{t \to t+h})}{\sigma_{F_t} \sigma_{R_{t \to t+h}}} $$ 假设因子已经标准化($\sigma_{F_t} = 1$),收益已经中性化($\bar{R} = 0$): $$ \text{IC} = \frac{1}{\sigma_R} \cdot \frac{1}{N} \sum_{i=1}^N F_{i,t} \cdot R_{i,t \to t+h} $$ $$ = \frac{1}{\sigma_R} \cdot \text{Mean}(F_t \odot R_{t \to t+h}) $$ 其中 $\odot$ 是逐元素乘法。 如果因子 $F_t$ 与Alpha $\alpha_t$ 完全相关($F_t \propto \alpha_t$): $$ \text{IC} \propto \text{Mean}(\alpha_t \odot R_{t \to t+h}) $$ 由于 $R_{t \to t+h} = \alpha_{t \to t+h} + \text{Beta} + \text{Noise}$,且横截面处理已剔除Beta: $$ \text{IC} \propto \text{Mean}(\alpha_t \odot \alpha_{t \to t+h}) $$ **结论**:IC度量的是因子与未来Alpha的横截面相关性 $\quad \blacksquare$ --- ## 4. 评估指标详解 ### 4.1 IC(信息系数) **定义** IC(Information Coefficient,信息系数)是因子值与未来收益的相关系数。 **公式**: $$ \text{IC}_t = \text{Corr}(F_t, R_{t \to t+h}) = \frac{\text{Cov}(F_t, R_{t \to t+h})}{\sigma_{F_t} \sigma_{R_{t \to t+h}}} $$ 其中: - $F_t$:$t$ 时刻的因子值向量 - $R_{t \to t+h}$:$t+h$ 时刻的收益向量 - $\sigma_{F_t}$:因子值的横截面标准差 - $\sigma_{R_{t \to t+h}}$:收益的横截面标准差 **计算示例** 假设有5只股票: | 股票 | 因子值 | 未来收益 | |------|--------|---------| | A | 1.5 | +5% | | B | 1.0 | +2% | | C | 0.5 | 0% | | D | 0.0 | -2% | | E | -0.5 | -5% | **计算均值**: $$ \bar{F} = (1.5 + 1.0 + 0.5 + 0.0 - 0.5) / 5 = 0.5 $$ $$ \bar{R} = (5\% + 2\% + 0\% - 2\% - 5\%) / 5 = 0\% $$ **计算标准差**: $$ \sigma_F = \sqrt{((1.5-0.5)^2 + (1.0-0.5)^2 + \cdots + (-0.5-0.5)^2) / 5} = 0.707 $$ $$ \sigma_R = \sqrt{((5\%-0)^2 + (2\%-0)^2 + \cdots + (-5\%-0)^2) / 5} = 3.74\% $$ **计算协方差**: $$ \text{Cov} = \frac{1}{5} \sum_{i=1}^5 (F_i - \bar{F})(R_i - \bar{R}) $$ $$ = \frac{1}{5} [(1.5-0.5)(5\%-0) + (1.0-0.5)(2\%-0) + \cdots + (-0.5-0.5)(-5\%-0)] $$ $$ = \frac{1}{5} [1 \cdot 5\% + 0.5 \cdot 2\% + 0 \cdot 0\% + (-0.5) \cdot (-2\%) + (-1) \cdot (-5\%)] $$ $$ = \frac{1}{5} [5\% + 1\% + 0\% + 1\% + 5\%] = \frac{12\%}{5} = 2.4\% $$ **计算IC**: $$ \text{IC} = \frac{\text{Cov}}{\sigma_F \sigma_R} = \frac{2.4\%}{0.707 \times 3.74\%} = 0.905 $$ **解释**: - IC = 0.905:因子与未来收益高度正相关 - IC = 0.05:因子与未来收益弱正相关 - IC = 0:因子与未来收益不相关 - IC = -0.05:因子与未来收益弱负相关 **经济含义**: - IC = 0.05:因子解释了 $0.05^2 = 0.25\%$ 的收益方差 - IC = 0.1:因子解释了 $0.1^2 = 1\%$ 的收益方差 - IC = 0.2:因子解释了 $0.2^2 = 4\%$ 的收益方差 **阈值**: - IC > 0.05:有效的因子 - IC > 0.08:非常好的因子 - IC > 0.1:极好的因子(在A股市场中罕见) **统计显著性检验**: $$ t = \text{IC} \cdot \sqrt{\frac{N}{1 - \text{IC}^2}} $$ 其中 $N$ 是横截面股票数。 **示例**:IC = 0.05,N = 500 $$ t = 0.05 \cdot \sqrt{\frac{500}{1 - 0.05^2}} = 0.05 \cdot \sqrt{502.5} = 1.12 $$ 查t分布表: - $t > 2$:显著(95%置信度) - $t > 2.58$:非常显著(99%置信度) 本例 $t = 1.12 < 2$,不显著,说明IC = 0.05可能来自随机噪声。 ### 4.2 Rank IC(排序相关系数) **定义** Rank IC是因子排名与收益排名的Spearman相关系数。 **公式**: $$ \text{RankIC}_t = \text{Corr}(\text{Rank}(F_t), \text{Rank}(R_{t \to t+h})) $$ 其中 $\text{Rank}(\cdot)$ 是排序函数。 **计算示例** 使用前面的例子: | 股票 | 因子值 | 排名 | 未来收益 | 排名 | |------|--------|------|---------|------| | A | 1.5 | 5 | +5% | 5 | | B | 1.0 | 4 | +2% | 4 | | C | 0.5 | 3 | 0% | 3 | | D | 0.0 | 2 | -2% | 2 | | E | -0.5 | 1 | -5% | 1 | **计算Spearman相关系数**: 由于排名完全一致,Rank IC = 1.0。 **优势**: - **对异常值鲁棒**:只看排名,不看具体数值 - **适合非线性关系**:可以捕捉单调但不线性的关系 - **适合偏态分布**:因子或收益分布严重偏态时仍然有效 **IC vs Rank IC**: | 维度 | IC | Rank IC | |------|----|----| | **计算方式** | Pearson相关 | Spearman相关 | | **对异常值** | 敏感 | 鲁棒 | | **关系假设** | 线性 | 单调 | | **适用场景** | 正态分布 | 任意分布 | | **信息损失** | 小 | 大 | **何时使用Rank IC**: - 因子或收益分布严重偏态 - 存在极端异常值 - 因子与收益的关系是非线性的 ### 4.3 IR(信息比率) **定义** IR(Information Ratio,信息比率)是IC的均值与标准差之比,度量因子的稳定性。 **公式**: $$ \text{IR} = \frac{\text{Mean}(\text{IC})}{\text{Std}(\text{IC})} = \frac{\bar{\text{IC}}}{\sigma_{\text{IC}}} $$ 其中: - $\text{Mean}(\text{IC})$:IC的时间序列均值 - $\text{Std}(\text{IC})$:IC的时间序列标准差 **计算示例** 假设5个月的IC序列: | 月份 | IC | |------|----| | 1 | 0.08 | | 2 | 0.06 | | 3 | 0.04 | | 4 | 0.02 | | 5 | 0.00 | **计算均值**: $$ \bar{\text{IC}} = (0.08 + 0.06 + 0.04 + 0.02 + 0.00) / 5 = 0.04 $$ **计算标准差**: $$ \sigma_{\text{IC}} = \sqrt{\frac{(0.08-0.04)^2 + (0.06-0.04)^2 + \cdots + (0.00-0.04)^2}{5}} = 0.028 $$ **计算IR**: $$ \text{IR} = \frac{0.04}{0.028} = 1.43 $$ **经济含义**: - IR > 1:非常稳定的因子 - IR > 0.7:稳定的因子 - IR > 0.5:可用的因子 - IR < 0.5:因子不稳定 **IR的重要性**: IR比IC更重要,因为: 1. 高IC但低IR:因子表现不稳定,今天IC=0.1,明天IC=-0.05,无法实战 2. 中IC但高IR:因子表现稳定,IC长期维持在0.03-0.05之间,可以实战 **示例对比**: | 因子 | IC均值 | IC标准差 | IR | 评价 | |------|--------|---------|----|----| | A | 0.10 | 0.15 | 0.67 | 不稳定(波动大) | | B | 0.05 | 0.05 | 1.00 | 稳定(波动小) | | C | 0.03 | 0.02 | 1.50 | 非常稳定 | **结论**:因子B虽然IC较低,但IR高,实战效果可能更好。 --- ## 5. 量化投资哲学探讨 ### 5.1 随机游走 vs 趋势跟踪 **随机游走假设(Random Walk Hypothesis)** $$ P_{t+1} = P_t + \varepsilon_{t+1} $$ 其中 $\varepsilon_{t+1}$ 是白噪声,期望为0。 **推论**: - 价格变化不可预测 - IC应接近0 - 策略无法获得超额收益 - 赚取市场Beta **趋势跟踪假设(Trend Following Hypothesis)** $$ P_{t+1} = P_t + \alpha_t + \varepsilon_{t+1} $$ 其中 $\alpha_t$ 是趋势信号,期望不为0。 **推论**: - 价格存在趋势 - IC > 0(动量效应) - 策略可以获得超额收益 - 赚取趋势Alpha **实证证据**: - **短期(1-5天)**:IC ≈ 0.02-0.04,动量效应弱 - **中期(5-20天)**:IC ≈ 0.05-0.08,动量效应中等 - **长期(20-60天)**:IC ≈ 0.08-0.12,动量效应强 **结论**: - 价格不完全随机,存在一定的趋势 - 趋势跟踪策略在A股市场有效 - 但需要通过横截面处理剥离市场风险 ### 5.2 有效市场 vs 套利机会 **有效市场假说(Efficient Market Hypothesis, EMH)** **强有效市场**: - 价格反映所有信息(包括内幕信息) - Alpha应消失 - 无法获得超额收益 **半强有效市场**: - 价格反映所有公开信息 - Alpha应消失 - 无法通过基本面分析获得超额收益 **弱有效市场**: - 价格反映历史价格信息 - 技术分析无效 - 但基本面分析可能有效 **行为金融(Behavioral Finance)** 投资者非理性: - 过度自信(Overconfidence) - 损失厌恶(Loss Aversion) - 羊群效应(Herding) - 锚定效应(Anchoring) **推论**: - Alpha长期存在 - 套利机会长期存在 - 但套利能力有限(风险、成本、流动性) **A股市场的实证证据**: - **因子收益**:价值、动量、质量因子长期IC > 0.05 - **Alpha规模**:每年可获得的Alpha约5%-15% - **套利机会**:长期存在,但逐渐消失(市场越来越有效) **结论**: - A股市场不是完全有效的,存在Alpha机会 - 但Alpha机会有限,需要量化方法系统化挖掘 - 横截面处理是提取Alpha的关键技术 ### 5.3 量化思维总结 **核心思想**: > "我们无法预测市场涨跌,但可以预测相对强弱。" **三个层次的思维转变**: **层次1:承认无知** - 承认自己无法准确预测宏观经济和大盘波动 - 不赌国运涨跌,不赌行业轮动 - 只赌"同一环境下,谁比谁强" **层次2:寻找秩序** - 相信即便在乱世或盛世,资产之间总有"好坏之分" - 通过横截面处理,剔除市场Beta - 寻找稳定的Alpha信号 **层次3:纯化信号** - 通过标准化和中性化,把那些"搭便车"的收益(行业、市值、大盘涨跌)全部扔掉 - 只捕捉那一点点代表公司真正竞争力的纯Alpha - 通过大数定律,分散风险,稳定收益 **量化投资的优势**: 1. **剥离Beta,追求Alpha**: - 绝对预测依赖市场涨跌 - 相对预测剥离市场风险 2. **降低预测难度**: - 不需要预测具体价格 - 只需要预测相对强弱 3. **提高容错率**: - 不需要绝对精确 - 只需要相关性(IC > 0.05) 4. **系统化风险管理**: - 通过分散投资降低特质风险 - 通过对冲降低系统性风险 **量化投资的本质**: 量化投资不是"猜大小",而是: - 系统化地挖掘Alpha - 科学化地管理风险 - 工程化地执行交易 横截面标准化不是数学技巧,而是一种投资策略: > 我们不赌国运涨跌,也不赌行业轮动,我们只赌"同一环境下,谁比谁强"。 --- ## 总结 从"预测绝对价格"到"预测相对强弱"是量化投资思维的核心转变。这个转变不仅是技术层面的,更是哲学层面的质变。 ### 核心要点回顾 1. **绝对预测 vs 相对预测**: - 绝对预测:预测价格/收益的绝对值 - 相对预测:预测横截面上的相对强弱 - 相对预测更稳定、容错率更高 2. **市场噪声过滤**: - 横截面处理可以完全消除系统性风险 - 只保留特质收益Alpha和部分噪声 - 大大降低预测难度 3. **Alpha/Beta分解**: - 总收益 = Alpha + Beta + Noise - Alpha = 选股能力 + 择时能力 + 执行能力 - 横截面处理剥离Beta,只保留Alpha 4. **评估指标**: - IC:因子与未来收益的相关系数 - Rank IC:因子排名与收益排名的相关系数 - IR:IC的稳定性(均值/标准差) 5. **量化投资哲学**: - 承认无知:无法预测市场涨跌 - 寻找秩序:资产之间总有"好坏之分" - 纯化信号:只捕获纯Alpha ### 实践建议 **对于因子研究**: - 关注IC和IR,而不是绝对收益 - 横截面标准化和中性化是必须的 - 选择稳定的因子(高IR),而不仅仅是高IC **对于策略构建**: - 市场中性:剥离Beta,只赚Alpha - 分散投资:通过大数定律降低风险 - 严格止损:控制下行风险 **对于投资哲学**: - 不赌国运,只赌"谁比谁强" - 承认市场有效性的局限,但Alpha长期存在 - 量化投资是科学+工程,不是赌大小 在下一文档中,我们将探讨Qlib特征工程的实践指南,包括特征张量优化、Pipeline配置、因子质量评估、数据泄漏防护等内容。