传统量化流程涉及的专业术语
本文档整理了量化研究流程中新手可能难以理解的专业术语,按类别进行说明。
1. 研究阶段与流程术语
Mandate (研究授权/任务书)
- 定义:研究的起点阶段,用于冻结研究问题的边界和范围
- 重要性:防止研究过程中悄无声息地改变研究目标
- 核心内容:研究主问题、时间窗、Universe、信号机制、参数边界等
Data Ready (数据就绪)
- 定义:确认原始数据可以被转换为可研究的数据基础层
- 目的:防止把数据问题误认为是alpha信号
- 关键检查:数据对齐、缺失处理、质量控制(QC)、覆盖审计
Signal Ready (信号就绪)
- 定义:将研究对象定义为统一、可复现的信号字段合同
- 核心任务:固定信号字段定义、时间标签、参数身份
- 输出:参数清单(param manifest)、信号时序、字段合同
Train Calibration (训练校准)
- 定义:在不接触未来数据的前提下,“定尺子”的阶段
- 职责:冻结阈值、分位切点、质量过滤标准
- 禁忌:不能根据test结果回头重算train阈值
Test Evidence (测试证据)
- 定义:在独立样本上验证冻结后的信号结构是否成立
- 目的:验证方向和结构,而非收益最大化
- 关键:只能复用Train已冻结的尺子,不能重估
Backtest Ready (回测就绪)
- 定义:验证冻结后的交易规则在独立样本外窗口是否可交易
- 要求:必须完成vectorbt、backtracer双引擎回测
- 异常检查:当收益异常高时,必须触发sanity check
Holdout Validation (留存验证)
- 定义:在完全未参与设计的最终窗口验证方案是否仍然有效
- 价值:提供最后的验证,防止过拟合
- 禁忌:不能用holdout调任何参数
Shadow Admission (影子准入)
- 定义:策略进入模拟实盘环境前的治理准入
- 要求:补充执行语义、撮合假设、容量、成本、监控方案
- 注意:不等于最终投产,只是更高级别的准入
2. 统计与测试术语
In-Sample / Out-of-Sample (样本内/样本外)
- IS:用于训练、参数优化的历史数据
- OOS:未参与训练和参数优化的独立验证数据
- 原则:决不能用OOS数据来调整参数或规则
Formal Gate (正式门禁)
- 定义:阶段必须满足的硬性要求,不满足不能晋级
- 作用:防止因为”看起来不错”就跳过关键检查
- 例子:数据覆盖达标、双引擎一致性、异常收益复核
Audit Gate (审计门禁)
- 定义:补充性检查项,用于解释和记录,但不直接阻断晋级
- 作用:积累经验,识别潜在问题
- 区别:audit-only发现不能偷换成formal gate
Look-ahead Bias (前视偏差)
- 定义:在计算时使用了当时不可获得的未来信息
- 后果:造成虚假的良好表现
- 例子:用当日收盘价做盘中交易决策
Survivorship Bias (幸存者偏差)
- 定义:只保留通过的结果,忽略失败案例
- 后果:高估策略表现
- 防范:必须保留负结果和失败路径
3. 数据与信号术语
Universe (标的集合)
- 定义:研究対象的标的范围,如加密货币交易对
- 冻结原则:研究开始后不得悄无声息地更改
- 准入口径:明确什么条件下可以纳入标的
Time Split (时间切分)
- 定义:将历史数据划分为Train、Test、Backtest、Holdout窗口
- 目的:确保各阶段数据独立性
- 要求:必须在Mandate阶段冻结
Time Alignment (时间对齐)
- 定义:所有标的按统一时间戳对齐,避免时间错位
- 重要性:时间错位会产生虚假信号
- 处理:缺失必须显式保留,不能静默吞掉
Forward-fill (前向填充)
- 定义:用前一个值填充缺失值
- 风险:可能掩盖真实的数据问题
- 规范:在原始层不允许静默forward-fill
QC (Quality Control,质量控制)
- 定义:数据质量检查报告
- 关键指标:缺失率、坏价率、stale率、outlier率
- 目的:快速识别数据质量问题
Signal Field Contract (信号字段合同)
- 定义:信号字段的正式定义规范
- 内容:字段名、类型、含义、时间语义、无前视边界
- 作用:确保不同阶段使用同一个信号定义
Param ID (参数身份)
- 定义:参数组合的唯一标识符
- 重要性:不允许靠文件名猜,也不允许靠人脑记
- 用途:追踪是哪组结果,避免混淆
4. 交易与执行术语
Whitelist (白名单)
- 定义:通过验证、允许进入回测的标的集合
- 冻结原则:在Test阶段冻结,Backtest不能重选
- 作用:防止在回测上重新选币
Best Horizon (最佳预测期)
- 定义:信号预测效果最好的时间周期
- 冻结要求:在Test阶段确定,Backtest不能重估
- 用途:决定持仓周期和交易频率
Spread-unit (价差单位)
- 定义:用价格变动而非资金计算收益的单位
- 限制:不能用于冒充正式回测收益
- 要求:回测收益必须基于正式资金记账口径
Dual Engine (双引擎)
- 定义:使用vectorbt、backtrader两套回测引擎验证
- 目的:确保结果不是某个引擎的bug导致的
- 要求:两套引擎必须都完成且结果一致
Semantic Gap (语义差异)
- 定义:不同回测引擎对同一策略的理解和实现不一致
- 检查要求:必须完成逐笔、逐日spot check
- 后果:如果有语义冲突,不能宣布Backtest Ready
5. 风险与绩效术语
Sharpe Ratio (夏普比率)
- 定义:衡量风险调整后收益的指标
- 计算:(收益率 - 无风险收益率) / 波动率
- 用途:评估单位风险获得的超额回报
Drawdown (回撤)
- 定义:从峰值到谷底的最大跌幅
- 重要性:衡量策略的最大风险暴露
- 监控:必须计算正式资金口径下的回撤
Capacity (容量)
- 定义:策略能够容纳的资金规模上限
- 考虑因素:流动性、滑点、自冲击、参与率
- 瓶颈:某些标的就是容量瓶颈
Self-impact (自冲击)
- 定义:策略自身交易对价格的冲击
- 后果:规模增大后收益会被成本吞噬
- 评估:必须在Backtest阶段评估
Crowding (拥挤度)
- 定义:与已知拥挤策略或风格暴露的重叠程度
- 风险:可能导致同时平仓、收益归零
- 检查:在Test阶段处理,回答alpha与拥挤的关系
Regime (状态/体制)
- 定义:不同市场环境下的分类,如波动率高低状态
- 切点冻结:在Train阶段确定,Test不能重估
- 用途:区分不同环境下的信号表现
6. 技术实现术语
Artifact (产出物/工件)
- 定义:研究过程中生成的文件和结果
- 分类:机器可读配置、机器可读结果、人类可读结论
- 要求:每个阶段必须留下artifact,不能只靠记忆
Field Dictionary (字段字典)
- 定义:解释机器产物里字段的文档
- 最低要求:字段名、类型、含义、单位、是否可空、空值语义
- 用途:让新成员能理解数据结构
Artifact Catalog (产物目录)
- 定义:列出阶段所有关键产物的清单
- 内容:文件名、用途、粒度、主键、消费者、是否机器可读
- 作用:建立产物与字段说明的映射
Frozen Spec (冻结规范)
- 定义:阶段间交接时使用的机器可读规范文件
- 用途:确保下一阶段”照单执行”
- 内容:冻结后的选择结果、阈值、规则
Lineage (谱系)
- 定义:研究线的唯一标识和传承关系
- Primary Line:当前默认消费、比较、汇报的正式基线
- Child Lineage:新条件、新规则、新机制的受控试验线
Coarse-to-fine Search (粗到精搜索)
- 定义:先粗网格搜索,再在局部精细搜索的参数优化策略
- 优势:避免暴力全量grid search的计算浪费
- 要求:必须保留完整参数搜索轨迹
7. 决策与治理术语
Verdict (裁决)
- 定义:阶段门禁的正式结论
- 状态词:PASS、CONDITIONAL PASS、RETRY、NO-GO等
- 要求:必须写清楚凭什么过、冻结了什么、下一步不能改什么
Rollback (回退)
- 定义:失败后返回到前面某个阶段重新处理
- 记录要求:必须写清rollback_stage、allowed_modifications
- 目的:受控重试,而非静默修改
Controlled Retry (受控重试)
- 定义:允许范围内的重试,有明确记录和审计
- 适用情况:实现bug、数据bug、执行层bug
- 禁忌:不能借此改变研究主问题
Child Lineage (子谱系)
- 触发条件:研究主问题、机制、Universe、时间切分发生实质变化
- 与Retry区别:Retry是修bug,Child Lineage是新研究方向
- 治理要求:不能自动替换主线,必须完成正式比较
Abnormal Performance Sanity Check (异常收益复核)
- 触发条件:收益明显好得不正常,超出常识范围
- 检查内容:前视、成本、异常bar、收益集中度、多引擎一致性
- 后果:未完成前不能写PASS或CONDITIONAL PASS
8. 文档与记录术语
Gate Decision (门禁决策)
- 定义:阶段结论的正式文档
- 必需字段:stage、status、decision_basis、frozen_scope等
- 作用:记录为什么通过、失败或需要重试
Run Manifest (运行清单)
- 定义:记录每次执行的元数据
- 最低字段:stage、lineage_id、run_id、timestamp、输入输出等
- 用途:整条研究线的执行账本
Negative Results Retention (负结果保留)
- 定义:保留被拒绝的symbol、淘汰的参数、失败的gate记录
- 重要性:避免幸存者偏差
- 价值:团队积累真实经验,而非只看成功案例
Companion Documentation (配套文档)
- 定义:每个机器可读artifact必须配套的字段说明文档
- 内容:artifact_catalog.md + field_dictionary.md
- 要求:这是formal gate,不是写作建议
9. 其他重要术语
OOS (Out-of-Sample)
- 样本外数据,未参与训练的数据
IS (In-Sample)
- 样本内数据,用于训练的数据
QC (Quality Control)
- 质量控制,数据质量检查
SOP (Standard Operating Procedure)
- 标准作业流程
Ledger (账本)
- 记录所有参数尝试、结果、决策的完整记录
Manifest (清单)
- 列出文件、配置、产物的清单文档
Spec (规范/规格)
- 详细的技术规范说明
Vanilla Implementation (原生实现)
- 最基础、最简单的实现方式
Overfitting (过拟合)
- 过度适应历史数据,导致泛化能力差
Leakage (泄漏)
- 未来信息泄露到过去,造成虚假信号
Stale Data (停滞数据)
- 不再更新的陈旧数据
Outlier (异常值)
- 明显偏离正常范围的数据点
Volatility (波动率)
- 价格变动的剧烈程度
Liquidity (流动性)
- 资产买卖的难易程度
Slippage (滑点)
- 实际成交价与预期价格的差异
Compress (压缩)
- 简化或减少复杂度的过程
学习建议
-
先理解流程:从Mandate到Production的完整流程是基础
-
掌握关键原则:
- Hypothesis before results (先定义问题,再看结果)
- Data contract before evidence (先确认数据,再讨论alpha)
- Freeze first, verify later (先冻结,再验证)
- Separate evidence layers (分离证据层次)
-
重点理解”为什么”:
- 为什么要分阶段?(防止样本污染)
- 为什么要冻结?(防止悄无声息地改规则)
- 为什么要双引擎?(确保不是bug导致的结果)
- 为什么要保留负结果?(避免幸存者偏差)
-
实践建议:
- 新手严格按照SOP执行
- 每个阶段都留下完整artifact
- 遇到异常结果先质疑,再庆祝
- 重视文档和记录,而非只看代码
这些术语构成了量化研究的基础语言,掌握它们是理解整个研究流程的关键。