传统量化流程涉及的专业术语

本文档整理了量化研究流程中新手可能难以理解的专业术语,按类别进行说明。

1. 研究阶段与流程术语

Mandate (研究授权/任务书)

  • 定义:研究的起点阶段,用于冻结研究问题的边界和范围
  • 重要性:防止研究过程中悄无声息地改变研究目标
  • 核心内容:研究主问题、时间窗、Universe、信号机制、参数边界等

Data Ready (数据就绪)

  • 定义:确认原始数据可以被转换为可研究的数据基础层
  • 目的:防止把数据问题误认为是alpha信号
  • 关键检查:数据对齐、缺失处理、质量控制(QC)、覆盖审计

Signal Ready (信号就绪)

  • 定义:将研究对象定义为统一、可复现的信号字段合同
  • 核心任务:固定信号字段定义、时间标签、参数身份
  • 输出:参数清单(param manifest)、信号时序、字段合同

Train Calibration (训练校准)

  • 定义:在不接触未来数据的前提下,“定尺子”的阶段
  • 职责:冻结阈值、分位切点、质量过滤标准
  • 禁忌:不能根据test结果回头重算train阈值

Test Evidence (测试证据)

  • 定义:在独立样本上验证冻结后的信号结构是否成立
  • 目的:验证方向和结构,而非收益最大化
  • 关键:只能复用Train已冻结的尺子,不能重估

Backtest Ready (回测就绪)

  • 定义:验证冻结后的交易规则在独立样本外窗口是否可交易
  • 要求:必须完成vectorbt、backtracer双引擎回测
  • 异常检查:当收益异常高时,必须触发sanity check

Holdout Validation (留存验证)

  • 定义:在完全未参与设计的最终窗口验证方案是否仍然有效
  • 价值:提供最后的验证,防止过拟合
  • 禁忌:不能用holdout调任何参数

Shadow Admission (影子准入)

  • 定义:策略进入模拟实盘环境前的治理准入
  • 要求:补充执行语义、撮合假设、容量、成本、监控方案
  • 注意:不等于最终投产,只是更高级别的准入

2. 统计与测试术语

In-Sample / Out-of-Sample (样本内/样本外)

  • IS:用于训练、参数优化的历史数据
  • OOS:未参与训练和参数优化的独立验证数据
  • 原则:决不能用OOS数据来调整参数或规则

Formal Gate (正式门禁)

  • 定义:阶段必须满足的硬性要求,不满足不能晋级
  • 作用:防止因为”看起来不错”就跳过关键检查
  • 例子:数据覆盖达标、双引擎一致性、异常收益复核

Audit Gate (审计门禁)

  • 定义:补充性检查项,用于解释和记录,但不直接阻断晋级
  • 作用:积累经验,识别潜在问题
  • 区别:audit-only发现不能偷换成formal gate

Look-ahead Bias (前视偏差)

  • 定义:在计算时使用了当时不可获得的未来信息
  • 后果:造成虚假的良好表现
  • 例子:用当日收盘价做盘中交易决策

Survivorship Bias (幸存者偏差)

  • 定义:只保留通过的结果,忽略失败案例
  • 后果:高估策略表现
  • 防范:必须保留负结果和失败路径

3. 数据与信号术语

Universe (标的集合)

  • 定义:研究対象的标的范围,如加密货币交易对
  • 冻结原则:研究开始后不得悄无声息地更改
  • 准入口径:明确什么条件下可以纳入标的

Time Split (时间切分)

  • 定义:将历史数据划分为Train、Test、Backtest、Holdout窗口
  • 目的:确保各阶段数据独立性
  • 要求:必须在Mandate阶段冻结

Time Alignment (时间对齐)

  • 定义:所有标的按统一时间戳对齐,避免时间错位
  • 重要性:时间错位会产生虚假信号
  • 处理:缺失必须显式保留,不能静默吞掉

Forward-fill (前向填充)

  • 定义:用前一个值填充缺失值
  • 风险:可能掩盖真实的数据问题
  • 规范:在原始层不允许静默forward-fill

QC (Quality Control,质量控制)

  • 定义:数据质量检查报告
  • 关键指标:缺失率、坏价率、stale率、outlier率
  • 目的:快速识别数据质量问题

Signal Field Contract (信号字段合同)

  • 定义:信号字段的正式定义规范
  • 内容:字段名、类型、含义、时间语义、无前视边界
  • 作用:确保不同阶段使用同一个信号定义

Param ID (参数身份)

  • 定义:参数组合的唯一标识符
  • 重要性:不允许靠文件名猜,也不允许靠人脑记
  • 用途:追踪是哪组结果,避免混淆

4. 交易与执行术语

Whitelist (白名单)

  • 定义:通过验证、允许进入回测的标的集合
  • 冻结原则:在Test阶段冻结,Backtest不能重选
  • 作用:防止在回测上重新选币

Best Horizon (最佳预测期)

  • 定义:信号预测效果最好的时间周期
  • 冻结要求:在Test阶段确定,Backtest不能重估
  • 用途:决定持仓周期和交易频率

Spread-unit (价差单位)

  • 定义:用价格变动而非资金计算收益的单位
  • 限制:不能用于冒充正式回测收益
  • 要求:回测收益必须基于正式资金记账口径

Dual Engine (双引擎)

  • 定义:使用vectorbt、backtrader两套回测引擎验证
  • 目的:确保结果不是某个引擎的bug导致的
  • 要求:两套引擎必须都完成且结果一致

Semantic Gap (语义差异)

  • 定义:不同回测引擎对同一策略的理解和实现不一致
  • 检查要求:必须完成逐笔、逐日spot check
  • 后果:如果有语义冲突,不能宣布Backtest Ready

5. 风险与绩效术语

Sharpe Ratio (夏普比率)

  • 定义:衡量风险调整后收益的指标
  • 计算:(收益率 - 无风险收益率) / 波动率
  • 用途:评估单位风险获得的超额回报

Drawdown (回撤)

  • 定义:从峰值到谷底的最大跌幅
  • 重要性:衡量策略的最大风险暴露
  • 监控:必须计算正式资金口径下的回撤

Capacity (容量)

  • 定义:策略能够容纳的资金规模上限
  • 考虑因素:流动性、滑点、自冲击、参与率
  • 瓶颈:某些标的就是容量瓶颈

Self-impact (自冲击)

  • 定义:策略自身交易对价格的冲击
  • 后果:规模增大后收益会被成本吞噬
  • 评估:必须在Backtest阶段评估

Crowding (拥挤度)

  • 定义:与已知拥挤策略或风格暴露的重叠程度
  • 风险:可能导致同时平仓、收益归零
  • 检查:在Test阶段处理,回答alpha与拥挤的关系

Regime (状态/体制)

  • 定义:不同市场环境下的分类,如波动率高低状态
  • 切点冻结:在Train阶段确定,Test不能重估
  • 用途:区分不同环境下的信号表现

6. 技术实现术语

Artifact (产出物/工件)

  • 定义:研究过程中生成的文件和结果
  • 分类:机器可读配置、机器可读结果、人类可读结论
  • 要求:每个阶段必须留下artifact,不能只靠记忆

Field Dictionary (字段字典)

  • 定义:解释机器产物里字段的文档
  • 最低要求:字段名、类型、含义、单位、是否可空、空值语义
  • 用途:让新成员能理解数据结构

Artifact Catalog (产物目录)

  • 定义:列出阶段所有关键产物的清单
  • 内容:文件名、用途、粒度、主键、消费者、是否机器可读
  • 作用:建立产物与字段说明的映射

Frozen Spec (冻结规范)

  • 定义:阶段间交接时使用的机器可读规范文件
  • 用途:确保下一阶段”照单执行”
  • 内容:冻结后的选择结果、阈值、规则

Lineage (谱系)

  • 定义:研究线的唯一标识和传承关系
  • Primary Line:当前默认消费、比较、汇报的正式基线
  • Child Lineage:新条件、新规则、新机制的受控试验线

Coarse-to-fine Search (粗到精搜索)

  • 定义:先粗网格搜索,再在局部精细搜索的参数优化策略
  • 优势:避免暴力全量grid search的计算浪费
  • 要求:必须保留完整参数搜索轨迹

7. 决策与治理术语

Verdict (裁决)

  • 定义:阶段门禁的正式结论
  • 状态词:PASS、CONDITIONAL PASS、RETRY、NO-GO等
  • 要求:必须写清楚凭什么过、冻结了什么、下一步不能改什么

Rollback (回退)

  • 定义:失败后返回到前面某个阶段重新处理
  • 记录要求:必须写清rollback_stage、allowed_modifications
  • 目的:受控重试,而非静默修改

Controlled Retry (受控重试)

  • 定义:允许范围内的重试,有明确记录和审计
  • 适用情况:实现bug、数据bug、执行层bug
  • 禁忌:不能借此改变研究主问题

Child Lineage (子谱系)

  • 触发条件:研究主问题、机制、Universe、时间切分发生实质变化
  • 与Retry区别:Retry是修bug,Child Lineage是新研究方向
  • 治理要求:不能自动替换主线,必须完成正式比较

Abnormal Performance Sanity Check (异常收益复核)

  • 触发条件:收益明显好得不正常,超出常识范围
  • 检查内容:前视、成本、异常bar、收益集中度、多引擎一致性
  • 后果:未完成前不能写PASS或CONDITIONAL PASS

8. 文档与记录术语

Gate Decision (门禁决策)

  • 定义:阶段结论的正式文档
  • 必需字段:stage、status、decision_basis、frozen_scope等
  • 作用:记录为什么通过、失败或需要重试

Run Manifest (运行清单)

  • 定义:记录每次执行的元数据
  • 最低字段:stage、lineage_id、run_id、timestamp、输入输出等
  • 用途:整条研究线的执行账本

Negative Results Retention (负结果保留)

  • 定义:保留被拒绝的symbol、淘汰的参数、失败的gate记录
  • 重要性:避免幸存者偏差
  • 价值:团队积累真实经验,而非只看成功案例

Companion Documentation (配套文档)

  • 定义:每个机器可读artifact必须配套的字段说明文档
  • 内容:artifact_catalog.md + field_dictionary.md
  • 要求:这是formal gate,不是写作建议

9. 其他重要术语

OOS (Out-of-Sample)

  • 样本外数据,未参与训练的数据

IS (In-Sample)

  • 样本内数据,用于训练的数据

QC (Quality Control)

  • 质量控制,数据质量检查

SOP (Standard Operating Procedure)

  • 标准作业流程

Ledger (账本)

  • 记录所有参数尝试、结果、决策的完整记录

Manifest (清单)

  • 列出文件、配置、产物的清单文档

Spec (规范/规格)

  • 详细的技术规范说明

Vanilla Implementation (原生实现)

  • 最基础、最简单的实现方式

Overfitting (过拟合)

  • 过度适应历史数据,导致泛化能力差

Leakage (泄漏)

  • 未来信息泄露到过去,造成虚假信号

Stale Data (停滞数据)

  • 不再更新的陈旧数据

Outlier (异常值)

  • 明显偏离正常范围的数据点

Volatility (波动率)

  • 价格变动的剧烈程度

Liquidity (流动性)

  • 资产买卖的难易程度

Slippage (滑点)

  • 实际成交价与预期价格的差异

Compress (压缩)

  • 简化或减少复杂度的过程

学习建议

  1. 先理解流程:从Mandate到Production的完整流程是基础

  2. 掌握关键原则

    • Hypothesis before results (先定义问题,再看结果)
    • Data contract before evidence (先确认数据,再讨论alpha)
    • Freeze first, verify later (先冻结,再验证)
    • Separate evidence layers (分离证据层次)
  3. 重点理解”为什么”

    • 为什么要分阶段?(防止样本污染)
    • 为什么要冻结?(防止悄无声息地改规则)
    • 为什么要双引擎?(确保不是bug导致的结果)
    • 为什么要保留负结果?(避免幸存者偏差)
  4. 实践建议

    • 新手严格按照SOP执行
    • 每个阶段都留下完整artifact
    • 遇到异常结果先质疑,再庆祝
    • 重视文档和记录,而非只看代码

这些术语构成了量化研究的基础语言,掌握它们是理解整个研究流程的关键。