MindCarver Blog

MindCarver

技术服务于产品

❯

❯

❯

传统量化流程涉及的专业术语

传统量化流程涉及的专业术语

2026年6月05日16分钟阅读

传统量化流程涉及的专业术语

本文档整理了量化研究流程中新手可能难以理解的专业术语，按类别进行说明。

1. 研究阶段与流程术语

Mandate (研究授权/任务书)

定义：研究的起点阶段，用于冻结研究问题的边界和范围
重要性：防止研究过程中悄无声息地改变研究目标
核心内容：研究主问题、时间窗、Universe、信号机制、参数边界等

Data Ready (数据就绪)

定义：确认原始数据可以被转换为可研究的数据基础层
目的：防止把数据问题误认为是alpha信号
关键检查：数据对齐、缺失处理、质量控制(QC)、覆盖审计

Signal Ready (信号就绪)

定义：将研究对象定义为统一、可复现的信号字段合同
核心任务：固定信号字段定义、时间标签、参数身份
输出：参数清单(param manifest)、信号时序、字段合同

Train Calibration (训练校准)

定义：在不接触未来数据的前提下，“定尺子”的阶段
职责：冻结阈值、分位切点、质量过滤标准
禁忌：不能根据test结果回头重算train阈值

Test Evidence (测试证据)

定义：在独立样本上验证冻结后的信号结构是否成立
目的：验证方向和结构，而非收益最大化
关键：只能复用Train已冻结的尺子，不能重估

Backtest Ready (回测就绪)

定义：验证冻结后的交易规则在独立样本外窗口是否可交易
要求：必须完成vectorbt、backtracer双引擎回测
异常检查：当收益异常高时，必须触发sanity check

Holdout Validation (留存验证)

定义：在完全未参与设计的最终窗口验证方案是否仍然有效
价值：提供最后的验证，防止过拟合
禁忌：不能用holdout调任何参数

Shadow Admission (影子准入)

定义：策略进入模拟实盘环境前的治理准入
要求：补充执行语义、撮合假设、容量、成本、监控方案
注意：不等于最终投产，只是更高级别的准入

2. 统计与测试术语

In-Sample / Out-of-Sample (样本内/样本外)

IS：用于训练、参数优化的历史数据
OOS：未参与训练和参数优化的独立验证数据
原则：决不能用OOS数据来调整参数或规则

Formal Gate (正式门禁)

定义：阶段必须满足的硬性要求，不满足不能晋级
作用：防止因为”看起来不错”就跳过关键检查
例子：数据覆盖达标、双引擎一致性、异常收益复核

Audit Gate (审计门禁)

定义：补充性检查项，用于解释和记录，但不直接阻断晋级
作用：积累经验，识别潜在问题
区别：audit-only发现不能偷换成formal gate

Look-ahead Bias (前视偏差)

定义：在计算时使用了当时不可获得的未来信息
后果：造成虚假的良好表现
例子：用当日收盘价做盘中交易决策

Survivorship Bias (幸存者偏差)

定义：只保留通过的结果，忽略失败案例
后果：高估策略表现
防范：必须保留负结果和失败路径

3. 数据与信号术语

Universe (标的集合)

定义：研究対象的标的范围，如加密货币交易对
冻结原则：研究开始后不得悄无声息地更改
准入口径：明确什么条件下可以纳入标的

Time Split (时间切分)

定义：将历史数据划分为Train、Test、Backtest、Holdout窗口
目的：确保各阶段数据独立性
要求：必须在Mandate阶段冻结

Time Alignment (时间对齐)

定义：所有标的按统一时间戳对齐，避免时间错位
重要性：时间错位会产生虚假信号
处理：缺失必须显式保留，不能静默吞掉

Forward-fill (前向填充)

定义：用前一个值填充缺失值
风险：可能掩盖真实的数据问题
规范：在原始层不允许静默forward-fill

QC (Quality Control，质量控制)

定义：数据质量检查报告
关键指标：缺失率、坏价率、stale率、outlier率
目的：快速识别数据质量问题

Signal Field Contract (信号字段合同)

定义：信号字段的正式定义规范
内容：字段名、类型、含义、时间语义、无前视边界
作用：确保不同阶段使用同一个信号定义

Param ID (参数身份)

定义：参数组合的唯一标识符
重要性：不允许靠文件名猜，也不允许靠人脑记
用途：追踪是哪组结果，避免混淆

4. 交易与执行术语

Whitelist (白名单)

定义：通过验证、允许进入回测的标的集合
冻结原则：在Test阶段冻结，Backtest不能重选
作用：防止在回测上重新选币

Best Horizon (最佳预测期)

定义：信号预测效果最好的时间周期
冻结要求：在Test阶段确定，Backtest不能重估
用途：决定持仓周期和交易频率

Spread-unit (价差单位)

定义：用价格变动而非资金计算收益的单位
限制：不能用于冒充正式回测收益
要求：回测收益必须基于正式资金记账口径

Dual Engine (双引擎)

定义：使用vectorbt、backtrader两套回测引擎验证
目的：确保结果不是某个引擎的bug导致的
要求：两套引擎必须都完成且结果一致

Semantic Gap (语义差异)

定义：不同回测引擎对同一策略的理解和实现不一致
检查要求：必须完成逐笔、逐日spot check
后果：如果有语义冲突，不能宣布Backtest Ready

5. 风险与绩效术语

Sharpe Ratio (夏普比率)

定义：衡量风险调整后收益的指标
计算：(收益率 - 无风险收益率) / 波动率
用途：评估单位风险获得的超额回报

Drawdown (回撤)

定义：从峰值到谷底的最大跌幅
重要性：衡量策略的最大风险暴露
监控：必须计算正式资金口径下的回撤

Capacity (容量)

定义：策略能够容纳的资金规模上限
考虑因素：流动性、滑点、自冲击、参与率
瓶颈：某些标的就是容量瓶颈

Self-impact (自冲击)

定义：策略自身交易对价格的冲击
后果：规模增大后收益会被成本吞噬
评估：必须在Backtest阶段评估

Crowding (拥挤度)

定义：与已知拥挤策略或风格暴露的重叠程度
风险：可能导致同时平仓、收益归零
检查：在Test阶段处理，回答alpha与拥挤的关系

Regime (状态/体制)

定义：不同市场环境下的分类，如波动率高低状态
切点冻结：在Train阶段确定，Test不能重估
用途：区分不同环境下的信号表现

6. 技术实现术语

Artifact (产出物/工件)

定义：研究过程中生成的文件和结果
分类：机器可读配置、机器可读结果、人类可读结论
要求：每个阶段必须留下artifact，不能只靠记忆

Field Dictionary (字段字典)

定义：解释机器产物里字段的文档
最低要求：字段名、类型、含义、单位、是否可空、空值语义
用途：让新成员能理解数据结构

Artifact Catalog (产物目录)

定义：列出阶段所有关键产物的清单
内容：文件名、用途、粒度、主键、消费者、是否机器可读
作用：建立产物与字段说明的映射

Frozen Spec (冻结规范)

定义：阶段间交接时使用的机器可读规范文件
用途：确保下一阶段”照单执行”
内容：冻结后的选择结果、阈值、规则

Lineage (谱系)

定义：研究线的唯一标识和传承关系
Primary Line：当前默认消费、比较、汇报的正式基线
Child Lineage：新条件、新规则、新机制的受控试验线

Coarse-to-fine Search (粗到精搜索)

定义：先粗网格搜索，再在局部精细搜索的参数优化策略
优势：避免暴力全量grid search的计算浪费
要求：必须保留完整参数搜索轨迹

7. 决策与治理术语

Verdict (裁决)

定义：阶段门禁的正式结论
状态词：PASS、CONDITIONAL PASS、RETRY、NO-GO等
要求：必须写清楚凭什么过、冻结了什么、下一步不能改什么

Rollback (回退)

定义：失败后返回到前面某个阶段重新处理
记录要求：必须写清rollback_stage、allowed_modifications
目的：受控重试，而非静默修改

Controlled Retry (受控重试)

定义：允许范围内的重试，有明确记录和审计
适用情况：实现bug、数据bug、执行层bug
禁忌：不能借此改变研究主问题

Child Lineage (子谱系)

触发条件：研究主问题、机制、Universe、时间切分发生实质变化
与Retry区别：Retry是修bug，Child Lineage是新研究方向
治理要求：不能自动替换主线，必须完成正式比较

Abnormal Performance Sanity Check (异常收益复核)

触发条件：收益明显好得不正常，超出常识范围
检查内容：前视、成本、异常bar、收益集中度、多引擎一致性
后果：未完成前不能写PASS或CONDITIONAL PASS

8. 文档与记录术语

Gate Decision (门禁决策)

定义：阶段结论的正式文档
必需字段：stage、status、decision_basis、frozen_scope等
作用：记录为什么通过、失败或需要重试

Run Manifest (运行清单)

定义：记录每次执行的元数据
最低字段：stage、lineage_id、run_id、timestamp、输入输出等
用途：整条研究线的执行账本

Negative Results Retention (负结果保留)

定义：保留被拒绝的symbol、淘汰的参数、失败的gate记录
重要性：避免幸存者偏差
价值：团队积累真实经验，而非只看成功案例

Companion Documentation (配套文档)

定义：每个机器可读artifact必须配套的字段说明文档
内容：artifact_catalog.md + field_dictionary.md
要求：这是formal gate，不是写作建议

9. 其他重要术语

OOS (Out-of-Sample)

样本外数据，未参与训练的数据

IS (In-Sample)

样本内数据，用于训练的数据

QC (Quality Control)

质量控制，数据质量检查

SOP (Standard Operating Procedure)

标准作业流程

Ledger (账本)

记录所有参数尝试、结果、决策的完整记录

Manifest (清单)

列出文件、配置、产物的清单文档

Spec (规范/规格)

详细的技术规范说明

Vanilla Implementation (原生实现)

最基础、最简单的实现方式

Overfitting (过拟合)

过度适应历史数据，导致泛化能力差

Leakage (泄漏)

未来信息泄露到过去，造成虚假信号

Stale Data (停滞数据)

不再更新的陈旧数据

Outlier (异常值)

明显偏离正常范围的数据点

Volatility (波动率)

价格变动的剧烈程度

Liquidity (流动性)

资产买卖的难易程度

Slippage (滑点)

实际成交价与预期价格的差异

Compress (压缩)

简化或减少复杂度的过程

学习建议

先理解流程：从Mandate到Production的完整流程是基础
掌握关键原则：
- Hypothesis before results (先定义问题，再看结果)
- Data contract before evidence (先确认数据，再讨论alpha)
- Freeze first, verify later (先冻结，再验证)
- Separate evidence layers (分离证据层次)
重点理解”为什么”：
- 为什么要分阶段？(防止样本污染)
- 为什么要冻结？(防止悄无声息地改规则)
- 为什么要双引擎？(确保不是bug导致的结果)
- 为什么要保留负结果？(避免幸存者偏差)
实践建议：
- 新手严格按照SOP执行
- 每个阶段都留下完整artifact
- 遇到异常结果先质疑，再庆祝
- 重视文档和记录，而非只看代码

这些术语构成了量化研究的基础语言，掌握它们是理解整个研究流程的关键。

关系图谱

传统量化流程涉及的专业术语
1. 研究阶段与流程术语
Mandate (研究授权/任务书)
Data Ready (数据就绪)
Signal Ready (信号就绪)
Train Calibration (训练校准)
Test Evidence (测试证据)
Backtest Ready (回测就绪)
Holdout Validation (留存验证)
Shadow Admission (影子准入)
2. 统计与测试术语
In-Sample / Out-of-Sample (样本内/样本外)
Formal Gate (正式门禁)
Audit Gate (审计门禁)
Look-ahead Bias (前视偏差)
Survivorship Bias (幸存者偏差)
3. 数据与信号术语
Universe (标的集合)
Time Split (时间切分)
Time Alignment (时间对齐)
Forward-fill (前向填充)
QC (Quality Control，质量控制)
Signal Field Contract (信号字段合同)
Param ID (参数身份)
4. 交易与执行术语
Whitelist (白名单)
Best Horizon (最佳预测期)
Spread-unit (价差单位)
Dual Engine (双引擎)
Semantic Gap (语义差异)
5. 风险与绩效术语
Sharpe Ratio (夏普比率)
Drawdown (回撤)
Capacity (容量)
Self-impact (自冲击)
Crowding (拥挤度)
Regime (状态/体制)
6. 技术实现术语
Artifact (产出物/工件)
Field Dictionary (字段字典)
Artifact Catalog (产物目录)
Frozen Spec (冻结规范)
Lineage (谱系)
Coarse-to-fine Search (粗到精搜索)
7. 决策与治理术语
Verdict (裁决)
Rollback (回退)
Controlled Retry (受控重试)
Child Lineage (子谱系)
Abnormal Performance Sanity Check (异常收益复核)
8. 文档与记录术语
Gate Decision (门禁决策)
Run Manifest (运行清单)
Negative Results Retention (负结果保留)
Companion Documentation (配套文档)
9. 其他重要术语
OOS (Out-of-Sample)
IS (In-Sample)
QC (Quality Control)
SOP (Standard Operating Procedure)
Ledger (账本)
Manifest (清单)
Spec (规范/规格)
Vanilla Implementation (原生实现)
Overfitting (过拟合)
Leakage (泄漏)
Stale Data (停滞数据)
Outlier (异常值)
Volatility (波动率)
Liquidity (流动性)
Slippage (滑点)
Compress (压缩)
学习建议

Created with Quartz v1.0.0 © 2026

GitHub