Horizon对齐（Label Shift）详解

引言

在量化投资和机器学习建模中，“Horizon对齐”（Horizon Alignment，又称Label Shift）是一个最基础、最核心，却最容易被误解的概念。它解决的是量化投资中最根本的问题：

“我现在的因子，如何对应未来的收益？”

简单来说，Horizon对齐就是消除”未来函数”并建立因果预测关系。

本文将从数学定义、详细示例、实现对比、不同Horizon的影响、常见错误陷阱等多个维度，全面解析Horizon对齐的原理与实践。

1. 核心概念与数学定义

1.1 Horizon的定义

**Horizon（预测时长/视界）**是指从当前时刻 $t$ 到未来时刻 $t + h$ 的时间跨度，记为 $h$ 。

常见的Horizon设置：

$h = 1$ ：预测未来1天（日频）
$h = 5$ ：预测未来5天（周频）
$h = 20$ ：预测未来20天（月频）
$h = 60$ ：预测未来60天（季频）

Horizon的选择取决于：

交易频率：高频交易 $h$ 较小，低频投资 $h$ 较大
因子类型：动量因子 $h$ 较小，价值因子 $h$ 较大
持仓周期：短线策略 $h$ 较小，长线策略 $h$ 较大

1.2 收益率的数学定义

离散收益率（Simple Return）

从 $t$ 时刻到 $t + h$ 时刻的收益率定义为：

$R_{t \to t + h} = \frac{P _{t + h} - P _{t}}{P _{t}}$

其中：

$P_{t}$ ： $t$ 时刻的价格
$P_{t + h}$ ： $t + h$ 时刻的价格
$R_{t \to t + h}$ ：从 $t$ 到 $t + h$ 的收益率

对数收益率（Log Return）

对数收益率具有可加性，是量化研究中常用的形式：

$r_{t \to t + h} = ln (\frac{P _{t + h}}{P _{t}}) = ln (P_{t + h}) - ln (P_{t})$

两者的关系

当收益率较小时（ $∣ R ∣ ≪ 1$ ），对数收益率约等于离散收益率：

$r \approx R$

推导（泰勒展开）：

$ln (1 + R) = R - \frac{R ^{2}}{2} + \frac{R ^{3}}{3} - \dots \approx R$

优势对比

收益率类型	优势	劣势
离散收益率	直观、易懂	不可加（跨时间）
对数收益率	可加、对称性	解释性稍差

可加性示例

假设有3天的价格： $P_{1} = 100, P_{2} = 110, P_{3} = 121$

离散收益率： $R_{1 \to 2} = (110 - 100) /100 = 10%$ $R_{2 \to 3} = (121 - 110) /110 = 10%$ $R_{1 \to 3} = (121 - 100) /100 = 21% \neq = R_{1 \to 2} + R_{2 \to 3}$

对数收益率： $r_{1 \to 2} = ln (110/100) = 0.0953$ $r_{2 \to 3} = ln (121/110) = 0.0953$ $r_{1 \to 3} = ln (121/100) = 0.1906 = r_{1 \to 2} + r_{2 \to 3} ✓$

1.3 Label Shift的推导过程

问题提出

在量化回测或机器学习建模中：

因子（Factor/Feature）：是我们在 $t$ 时刻就能观察到的数据（如： $t$ 时刻的收盘价、PE、成交量等）
收益率（Label/Target）：是我们要预测的目标，通常是从 $t$ 时刻到未来 $t + h$ 时刻的涨跌幅

问题是：如何将”当前的因子”与”未来的收益”对齐到同一行数据中？

错误的对齐方式（Look-ahead Bias）

$Row_{t} = {t 时刻可观测 Factor_{t}, t 时刻收益（已实现） Return_{t}}$

问题分析：

$Return_{t}$ 是 $t$ 时刻到 $t - 1$ 时刻的收益（已实现）
在 $t$ 时刻，我们不知道 $Return_{t}$ （要等到 $t + 1$ 时刻才知道）
如果用 $Return_{t}$ 训练模型，模型会”看到未来”，这是Look-ahead Bias

正确的对齐方式（Label Shift）

$Row_{t} = {t 时刻可观测 Factor_{t}, 未来 h 期收益 Return_{t \to t + h}}$

其中：

$Return_{t \to t + h} = \frac{P _{t + h}}{P _{t}} - 1$

Label Shift的操作

Label Shift的本质是将 $t + h$ 时刻才产生的收益率，“平移”到 $t$ 时刻的因子行上：

$Label_{t} = Return_{t \to t + h}$

时序因果约束

Horizon对齐必须满足时序因果约束：

$Factor_{t} \leftarrow Label_{t \to t + h} ✓$ $Factor_{t + 1} \leftarrow Label_{t \to t + h} \times$

约束解释：

在 $t$ 时刻，我们可以观测到 $Factor_{t}$
在 $t$ 时刻，我们预测的是 $Label_{t \to t + h}$ （未来收益）
不能在 $t$ 时刻预测 $Label_{t \to t + h}$ （这已经是过去的收益）

1.4 Dataset形式化表示

训练集构造

整个训练集可以形式化为：

$D = {(X_{t}, y_{t + h}) ∣ t = 1, 2, \dots, T - h}$

其中：

$X_{t} \in R^{N \times F}$ ： $t$ 时刻 $N$ 个资产的 $F$ 个因子
$y_{t + h} \in R^{N}$ ： $t + h$ 时刻 $N$ 个资产的收益
$T$ ：总时间长度
$N$ ：资产数量
$F$ ：因子数量

维度解释

时间维度（Time）：

训练集时间范围： $[t_{1}, t_{T - h}]$
标签时间范围： $[t_{1 + h}, t_{T}]$
注意：训练集最后 $h$ 个时刻没有标签（因为未来数据不存在）

资产维度（Number of instruments）：

横截面：每个时刻有 $N$ 个资产
模型可以学习”同一时刻不同资产之间的关系”（横截面信息）

因子维度（Factors）：

每个资产有 $F$ 个因子
模型可以学习”同一资产不同因子之间的关系”（时序信息）

矩阵形式

特征矩阵 $X \in R^{(T - h) \times N \times F}$ ：

MindCarver Blog

MindCarver

探索

02-horizon对齐详解