横截面因子研究 - 英文术语表

适用范围：content/quant/量化研究/横截面因子研究/展开讲/ 配套详解：./术语详细解释.md

第一次阅读这一组文档时，建议先看这份术语表。这里把文档里反复出现的英文量化术语、阶段名、统计词、执行词和产物命名统一解释清楚。

0. 先讲两个阅读规则

代码块里的 snake_case 名字，通常是“机器可读字段名”或“冻结合同字段名”，不是自然语言句子。
文件名通常是“概念 + 文件格式”，例如 factor_manifest.yaml 可以拆成：
- factor_manifest：因子身份与依赖清单
- yaml：一种适合保存配置和结构化清单的文本格式
这一组文档走的是 CSF 横截面因子路线；current QROS runtime 更常见的是：
- factor_panel.parquet
- factor_manifest.yaml
- factor_coverage_report.parquet
- csf_selected_variants_test.csv
- portfolio_contract.yaml

1. 阶段与治理术语

Mandate：研究立项与合同冻结阶段，先锁研究边界，再允许后续做数据、信号、训练和验证。
DataReady：数据底座冻结阶段，统一后续研究要使用的 date x asset 面板世界。
SignalReady：信号身份冻结阶段，明确因子是什么、扮演什么角色、如何被下游消费。
TrainFreeze：训练尺子冻结阶段，锁住预处理、中性化、分桶、调仓等后续必须复用的规则。
TestEvidence：证据验证阶段，在独立样本上看排序能力、稳定性和进入交易层的资格。
BacktestReady：交易层冻结阶段，锁组合表达、执行政策、风险覆盖、成本和容量口径。
HoldoutValidation：最终未见窗口验证阶段，检查冻结方案在最终独立窗口上是否仍成立。
Backtest：回测，用历史数据按既定交易规则模拟策略表现。
Holdout：最终保留、不参与设计和调参的未见验证窗口。
Train：训练窗，用来估计后续要复用的处理尺子和规则。
Test：独立测试窗，用来检验证据，但不直接宣布交易层胜利。
Shadow：影子运行阶段，不直接上真仓，但按接近实盘的方式跟踪表现。
PASS：通过，说明该阶段结论允许继续推进。
CONDITIONAL PASS：有条件通过，说明可以推进，但必须带着明确限制条件。
NO_GO：不通过，不允许继续推进到下一阶段。
CHILD LINEAGE：子谱系，表示后续工作已不是原研究线的正常延续，而是新分支。
lineage：谱系，指一条研究线从立项到验证的版本继承关系。
child lineage：子研究线，通常意味着研究边界、时间窗、执行表达等关键轴发生了改变。
review：正式复核，不是随口看一眼，而是按阶段纪律检查能不能过门。
formal gate：正式门禁，指阶段推进前必须满足的规则集合。
QROS：Quant Research OS，量化研究流程治理框架，用阶段冻结和评审门禁管理研究线。
kill_criteria：终止条件，指哪些情况出现后，这条研究线就不该继续按原路径推进。
failure_governance：失败治理规则，指失败时如何归因、如何处置、是否要终止或开新线。

2. 样本、市场与数据底座术语

cross_sectional_factor：横截面因子研究路线，核心问题是“同一时点不同资产谁更强、谁更弱”。
cross-sectional：横截面的，强调同一时间点跨资产比较，不是单一资产跨时间比较。
date x asset：研究样本的二维坐标，表示每条样本是“某一天的某个资产”。
panel：面板数据，通常就是按 date x asset 组织的二维表。
universe：样本池，指有资格进入横截面比较的资产集合。
Universe：如果在文中首字母大写，通常仍是指研究样本池这个概念。
venue：具体交易场所或撮合场，例如 binance_spot、bybit_perp。
venue_scope：允许纳入研究的交易场范围。
asset：资产，例如 BTC、ETH、SOL 这类可被比较和交易的标的。
asset_key：资产主键，机器识别某个资产所用的唯一字段。
date_key：时间主键，机器识别某个时点所用的唯一字段。
panel_frequency：面板频率，例如 1h、4h、1d，表示样本按多长时间间隔排列。
bar：K 线条，也可理解为某个固定时间粒度上的行情块。
bar_size：K 线粒度，例如 1h 表示 1 小时一根。
timezone：时区。
UTC：协调世界时，是量化研究里常用的统一时区标准。
close_time：K 线收盘时点。
open：开盘价。
close：收盘价。
next_bar_open：下一根 K 线开盘时点，常用来定义“信号最早何时可被交易”。
available_after：某数据或信号在什么时点之后才算可用。
signal_timestamp：信号对应的时间戳定义。
time_semantics：时间语义，指一个字段或信号到底对应什么时候、何时可见、何时可用。
timestamp_semantics：时间戳语义，含义与 time_semantics 接近，但更强调时间戳字段本身的定义。
time_split：时间切分合同，明确 train/test/backtest/holdout 各自的起止区间。
horizon：预测或评价视角的持有期，例如 1 天后、5 天后的收益。
best_h / best_horizon：表现最好的持有期。它属于容易把研究带向时序择时的口径；在 CSF 横截面因子路线中不应作为 formal artifact 产出。
single_use_window / 单次消费：指 Holdout 窗口一旦开始消费，就不能再被包装成“没正式用过”。
lag：时滞，指信号生成到实际交易或生效之间间隔多少时间。
T：当前信号时点。
T+1：下一个交易时点或下一期，常用来表达“下一期才交易”。
market：市场，可以指现货、永续、股票、期货等大的交易场景。
crypto：加密资产市场。
binance_spot：币安现货市场。
binance_futures：币安合约市场。
bybit_perp：Bybit 永续合约市场。
okx_spot：OKX 现货市场。

3. 数据合同与分类术语

data_contract：数据合同，规定允许使用哪些数据、时间语义如何定义、怎样对齐到研究样本。
panel_contract：面板合同，规定数据面板长什么样、主键是什么、频率是什么。
panel_manifest：面板元信息清单，记录主键、频率、时区、覆盖规则等信息。
taxonomy：资产分类体系，例如把资产分成 layer1、defi、meme 等类别。
taxonomy_contract：分类体系合同，规定分类来自哪里、版本是什么、如何复现。
asset_universe_membership：样本池成员关系，记录“某个时点这个资产是否属于研究 universe”。
membership：成员关系，通常就是指某资产在某时点是否属于某个集合。
eligibility：基础可研究性，指“这个观测在当前时点是否具备研究资格”。
eligibility_contract：基础可研究性合同，规定哪些条件决定一个样本是否可研究。
eligibility_base_mask：基础可研究性掩码表，通常用真假值表示每个样本是否合格。
mask：掩码表，常用真假值表示“某样本是否满足条件”。
shared_feature_base：共享基础特征层，指后续多个阶段都会复用的基础字段集合。
feature：特征，泛指用来描述资产、环境或信号的变量。
field：字段，数据表中的列名或属性。
fields：字段集合。
log_market_cap：市值取对数后的字段，常用于中性化或控制大小盘暴露。
market cap：市值，资产总市值。
volume_24h / rolling_volume_24h：24 小时滚动成交量。
days_listed：上市天数。
listing_days：某资产已上市了多少天，常用来过滤新上市资产。
beta_30d：过去 30 天估出来的 beta 暴露。
stablecoin / stablecoins：稳定币，价格锚定某种资产或法币。
leveraged_tokens：杠杆代币，自带杠杆结构的交易产品。
exchange_token：交易所平台币。
layer1：公链基础层项目类别。
defi：去中心化金融类别。
meme：meme 币或 meme 类资产类别。
lookahead：前视偏差，指不小心用到了当时本不该知道的信息。
leakage：信息泄漏，常指未来信息或下游信息被提前带回上游。
replay：重放，指按原始输入和原始配置重新跑出同样结果。
rebuild：重建，指根据合同和产物重新生成相同数据或结果。
price_source：价格数据来源。
liquidity_source：流动性数据来源。
spot_klines：现货 K 线数据源。
coverage_rule：覆盖规则，定义在什么条件下某样本才算进入正式覆盖范围。
category：分类标签。
symbol：交易符号，例如 BTCUSDT 这类资产代码。

4. 因子、信号与角色术语

factor：因子，用来给资产打分、排序或过滤的研究对象。
signal：信号，通常是最终被下游训练、测试或组合消费的可执行打分或条件。
alpha：超额收益来源。文档里说“候选 alpha”时，通常指可能带来独立收益解释力的因子。
standalone_alpha：单独就应该具备横截面排序能力的因子角色。
regime_filter：环境过滤器，用来判断在什么市场状态下应当启用或停用某策略。
combo_filter：组合过滤器，用来在组合层做条件筛选或约束，而不是单独打分。
single_factor：单因子，最终输出只由一个核心因子逻辑决定。
multi_factor_score：多因子确定性打分，用多个字段按固定公式组合成一个分数。
factor_id：因子唯一标识符。
param_id：参数身份标识符。current QROS 更强调“下游到底消费哪个已物化的 param_id”，而不只是哪一个自然语言因子名。
factor_name：因子名称。
factor_identity：因子身份信息，包括输入字段、派生字段、时间语义等。
identity：身份定义，强调“这个对象到底是什么”。
factor_role_contract：因子角色合同，规定这个因子后续应按哪类证据逻辑被检验。
factor_structure_contract：因子结构合同，规定它是单因子还是多因子，内部怎么组合。
factor_role：因子角色本身。
factor_structure：因子结构本身。
raw_factor_fields：原始输入字段。
derived_factor_fields：派生字段，即由原始字段加工出来的中间变量。
factor_panel：按 date x asset 组织的因子值面板，是 CSF SignalReady 的核心 formal artifact。
factor_selection：因子筛选结果，记录哪些对象被保留进入下一阶段。
factor_manifest：因子元信息清单，记录因子身份、版本、依赖字段等。
component_factor_manifest：组件因子清单，记录多因子分数中各 component 的身份和来源。
factor_coverage_report：因子覆盖率报告，表示在多少样本、多少时点上有有效因子值。
factor_group_context：因子的分组上下文，供 group neutral、分组审计和解释使用。
route_inheritance_contract：路线继承合同，说明 factor role、portfolio expression、neutralization 等语义如何从 mandate 继承。
factor_contract：因子合同，泛指约束因子身份、角色和结构的规则集合。
selected_factor_spec：被正式选中进入下游阶段的因子规格说明。
baseline-only：SignalReady 第一版只冻结 baseline signal，而不是直接冻结整批 full search grid。
expression：表达方式，指信号或组合最终以什么形式被使用。
portfolio_expression：信号最终准备怎样映射成组合表达。
long_only_rank：只做多的排序表达，通常买入高分资产，不做空低分资产。
long_short_market_neutral：多空市场中性表达，通常做多高分、做空低分，并尽量控制整体市场暴露。
market_beta_neutral：市场 beta 中性化，尽量去掉整体市场方向暴露。
group_neutral：分组中性化，尽量在每个分类组内部做平衡，减少行业或板块偏差。
neutralization：中性化，指把某些已知暴露从信号或组合里剥离出去。
neutralization_policy：中性化政策，规定要不要中性化、对哪些暴露做中性化、按什么规则做。
deterministic：确定性的，意思是给定同样输入一定得到同样输出，不依赖训练学出来的参数。
gating：门控，根据某个条件决定是否允许某信号或组合生效。
filter：过滤条件，用来筛掉不满足条件的样本或时点。
combo：组合体，强调多个因子、条件或模块共同作用。
gated：加了过滤条件后的版本。
ungated：没加过滤条件的原始版本。
momentum：动量，通常指过去一段时间涨得越多、后续越可能继续强势的特征。
turnover：换手或成交活跃度。
VWAP：成交量加权平均价。
RSI：相对强弱指标。
MOM_20D：20 日动量因子 ID。
ret_20d：20 日收益率。
score：分数，通常指因子对资产打出来的排序值。
score weighted：按分数大小分配权重，而不是简单等权。
weights：组合权重。
ID：标识符，意思与 identifier 接近。

5. 训练、统计证据与评估术语

preprocess_contract：预处理合同，规定因子值在进入正式评估前如何清洗和整理。
preprocess：预处理，指正式评估前的清洗、变换和标准化步骤。
winsorize：去极值，把特别极端的值截到某个分位边界上。
clipping：裁剪，把超出某范围的值直接截断。
zscore：标准分，把变量转成“离均值多少个标准差”的形式。
cross_sectional_zscore：横截面标准化，在每个时点上对资产截面做 z-score。
standardize：标准化，把不同量纲的变量转成可比较的尺度。
rank transform：排名变换，把原值变成排名或百分位。
MAD：中位数绝对偏差，一种鲁棒的离散度衡量方式。
mad_3：常表示按 3 倍 MAD 做异常值处理的规则。
neutralization_contract：中性化合同，规定训练窗里如何做暴露剥离。
ranking_bucket_contract：分桶合同，规定横截面怎么分组比较。
bucket：分桶、分组，例如把资产按分数从高到低分成若干组。
quintile：五分位，把截面分成 5 组。
decile：十分位，把截面分成 10 组。
tercile / tertile：三分位，把截面分成 3 组。
ties：并列值处理规则，指多个资产分数相同时怎么处理。
min_cross_section_size：最小横截面样本数，样本太少时通常不做正式评估。
rebalance：调仓，按既定频率或触发条件更新组合持仓。
rebalance_contract：调仓合同，规定调仓频率、触发模式和辅助条件。
schedule_only / scheduled_only：只允许按预定时间表调仓，不接受额外临时触发。
auxiliary_conditions：辅助条件，指额外的触发或限制条件。
variant：候选版本，指同一研究对象在某个治理轴上的不同方案。
variant ledger：候选版本台账，记录每个版本为什么保留、为什么淘汰。
reject ledger：拒绝台账，记录哪些尝试被拒绝及其原因。
search_statistics / search_statistics.json：训练阶段的搜索过程统计，记录 total / passed / rejected 等信息。
reject_reason：拒绝原因字段。current Train contract 要求 reject ledger 中每条被拒绝记录都应有明确原因。
OOS：out of sample，样本外，也就是训练之外的独立评估数据。
Rank IC：排序信息系数，看因子排序与后续收益排序之间的相关性。
IC：information coefficient，信息系数，是排序相关性的一种常见写法。
ICIR：信息系数的信息比率，衡量 IC 的稳定性。
Sharpe：夏普比率，用超额收益除以波动来衡量风险调整后的收益质量。
bps：basis points，基点；1 bps = 0.01%。
bucket returns：各分桶后续收益，常用来看高分组和低分组是否分层明显。
monotonicity：单调性，指分桶收益是否大体按分数高低有序排列。
breadth：广度，通常指信号是否在足够多的样本、资产或时期上成立。
coverage：覆盖率，指有多少样本有有效数据或有效信号。
qcut：按分位数切分样本的分桶操作。
admissibility：可准入性，指一个对象是否值得进入下一阶段。
admissibility_contract：可准入性合同，规定什么样的证据和质量才允许继续推进。
audit_contract：审计合同，规定必须留下哪些证据、比较和说明。
gated vs ungated：有过滤条件和无过滤条件两个版本的对比。
regime：市场状态或市场环境，例如高波动、低波动、趋势、震荡。
rolling OOS：滚动样本外评估，按多个连续窗口反复做样本外检验。

6. 组合、执行、风险与容量术语

execution_policy：执行政策，规定信号如何映射成实际交易动作。
execution_contract：执行表达合同，强调研究结果最终准备用什么交易表达被消费。
execution：执行层，指从信号到下单、成交、持仓更新这一整层动作。
signal to trade lag：信号到交易的时滞。
maker：挂单成交的一方，通常手续费更低，但不保证及时成交。
taker：吃单成交的一方，通常更容易立即成交，但成本更高。
maker/taker：挂单与吃单两种成交方式及其成本口径。
portfolio_policy：组合政策，规定怎么把信号变成组合持仓。
portfolio：组合，一组资产持仓及其权重。
portfolio_weight_panel：按时间和资产记录组合权重的面板表。
long：做多，押注资产上涨获利。
short：做空，押注资产下跌获利。
market neutral / neutral：市场中性，尽量不押注整体市场涨跌方向。
risk_overlay：风险叠加约束层，在原始组合之上再加暴露、权重、参与率等限制。
beta neutral：让组合整体 beta 接近 0，减少市场方向暴露。
group exposure / sector exposure：某个分类组或板块上的暴露。
drawdown：回撤，净值从高点回落的幅度。
tail risk：尾部风险，极端坏情况带来的损失风险。
cost model：成本模型，规定手续费、滑点、资金费率等怎么估算。
liquidity：流动性，指资产能否以合理成本成交。
capacity：容量，指策略在多大资金规模下仍能维持原有逻辑和表现。
participation rate：参与率，指策略成交量占市场成交量的比例。
engine_contract：引擎合同，规定结果是由什么回测实现和什么口径跑出来的。
portfolio_contract / portfolio_contract.yaml：回测冻结组合合同，供 Holdout 直接复用的交易层冻结方案。
selected_strategy_combo / selected_strategy_combo.json：被正式选中的组合配置。
semantic_gap：双回测引擎之间是否存在语义冲突或关键结果不一致。
abnormal performance sanity check：异常表现复核。比如 Sharpe 异常高时，必须先排查实现、成本或口径问题。
deployable capital：可部署资金规模，不是抽象容量判断，而是有流动性和参与率约束支撑的规模口径。
vectorized：向量化实现，通常按数组批量计算，速度快。
event-driven：事件驱动实现，按交易事件逐条推进，更接近真实撮合逻辑。

7. Holdout 与解释性审计术语

window_contract：窗口合同，规定某个评估阶段到底消费哪段时间窗、允许消费几次。
reuse_contract：复用合同，规定 Holdout 或下游阶段允许复用哪些冻结对象，绝对不能改哪些。
drift_audit：漂移审计，检查结果与上游或历史相比偏离了多少，以及偏离原因。
holdout_test_compare：Holdout 与 TestEvidence 的对比结果，用来比较最终未见窗口与测试证据的一致性。
holdout_portfolio_compare：Holdout 与 BacktestReady 的组合层对比结果。
csf_selected_variants_test：在 CSF TestEvidence 结束时冻结下来的候选 variant 清单，供 BacktestReady 直接消费。
csf_test_contract：CSF TestEvidence 合同，说明正式证据口径和冻结候选。
structural break：结构突变，指关系、系数或机制在某个时间段发生断裂。
structural break protocol：结构突变检验口径。current Holdout review 在用“只是 regime 变了”解释退化时，通常要求有这类 protocol 或 waiver。
verdict：正式结论，例如 PASS、NO_GO。

8. 常见研究字段名与意图字段

research_intent：研究意图，说明为什么研究这条线。
observation：观察到的市场现象。
hypothesis：核心研究假设。
counter_hypothesis：反假设，指这条研究线可能只是错觉或替代解释。
research_route：研究路线，说明这是横截面研究、时序研究还是别的路线。
scope_contract：范围合同，规定研究允许覆盖多大范围、允许哪些结构。
target_market：目标市场定义。
universe_rule：样本池构造规则。
exclusions：排除规则。
route：路线。
rule / rules：规则。
command：命令，通常指重放或重建该阶段产物所用的程序命令。
run_manifest：运行清单，记录某次执行是怎么跑出来的。
stage_completion_certificate：阶段完成证明，说明该阶段产物已经正式冻结完成。
artifact：产物，指阶段输出的文件、表格、报告和配置。
artifact_catalog：产物目录清单。
field_dictionary：字段说明字典。
window_results：分窗口结果目录。
frozen：冻结版，表示这是已锁定、不应被静默修改的版本。
freeze：冻结动作本身。
delivery_contract：交付合同，规定本阶段必须落哪些产物，供下游怎样直接消费。
formal_gate_contract：正式门禁合同，规定这一阶段真正按什么规则判定过不过门。
split：切分，通常指时间切分。
schedule：时间表式触发规则。
frequency：频率。
timestamp：时间戳。
key：主键或唯一识别字段。
criteria：判定标准。
formula：公式。
role：角色。
structure：结构。
derived：派生得到的。
raw：原始的。
base：基础层。
shared：共享层。
eligible：符合基础研究资格。
listing：上市相关状态。
drift：漂移，指结果或分布相对历史或上游发生偏离。
audit：审计，指系统性检查证据和偏离来源。
volume：成交量。
size：大小暴露，常指市值大小这一维。
standalone：单独成立、不依赖别的模块一起消费。
none：无，表示不启用某类处理，例如不做中性化。

9. 常见产物命名后缀

contract：合同，定义规则边界和不允许被静默修改的东西。
policy：政策，定义执行层或消费层的具体规则。
spec：规格说明，强调“冻结方案到底长什么样”。
manifest：清单，记录产物元信息、版本和来源。
ledger：台账，记录选择、拒绝、版本变化和原因。
catalog：目录清单，记录有哪些产物、它们分别是什么。
dictionary：字段字典，解释每个字段是什么意思。
coverage：覆盖说明，通常是覆盖率或有效样本范围的记录。
report：报告，偏解释性和总结性输出。
decision：决策文件，记录阶段结论和原因。

10. 常见文件格式后缀

csv：逗号分隔表格文件，适合看明细或导入表格工具。
json：结构化数据文件，适合机器读取。
yaml：结构化配置文件，适合写规则和元信息。
parquet：列式数据文件，常用于保存大规模面板数据或回测结果。
md：Markdown 文档文件，适合写说明、报告和决策记录。

11. 机器学习写法在这些文档里的位置

X_train：训练输入特征矩阵。
y_train：训练目标变量。
fit_model(...)：拟合模型。文档里出现它，通常是在提醒“这一步不应该提前出现在 SignalReady 之类的上游阶段”。

12. 读这组文档时最重要的口径

如果一个术语在上游阶段出现，重点先看它是在“定义合同”，还是已经在“宣布结果”。
如果一个词出现在文件名里，先看词根概念，不要被格式后缀分散注意力。
如果一个词带下划线，多半是机器字段名；把它翻回自然语言后再看作者在约束什么。

13. 文件名怎么读

很多看起来“很长的英文词”其实只是概念名加文件格式，不是新的神秘术语。

factor_panel.parquet：CSF SignalReady 阶段的因子面板数据文件。
factor_manifest.yaml：CSF SignalReady 阶段的因子身份清单。
csf_selected_variants_test.csv：CSF TestEvidence 阶段冻结的候选 variant 清单。
csf_test_contract.md：CSF TestEvidence 阶段的正式证据合同。
portfolio_contract.yaml：CSF BacktestReady 阶段冻结的组合合同。
portfolio_weight_panel.parquet：组合权重面板。
return_accounting_provenance.yaml：回测收益归因与来源说明。
csf_holdout_run_manifest.json：CSF HoldoutValidation 运行清单。

读法上先拆词根，再看后缀：

词根解释“它是什么”
后缀解释“它以什么文件形式保存”

MindCarver Blog

MindCarver

探索

英文术语表

横截面因子研究 - 英文术语表

0. 先讲两个阅读规则

1. 阶段与治理术语

2. 样本、市场与数据底座术语

3. 数据合同与分类术语

4. 因子、信号与角色术语

5. 训练、统计证据与评估术语

6. 组合、执行、风险与容量术语

7. Holdout 与解释性审计术语

8. 常见研究字段名与意图字段

9. 常见产物命名后缀

10. 常见文件格式后缀

11. 机器学习写法在这些文档里的位置

12. 读这组文档时最重要的口径

13. 文件名怎么读

关系图谱

目录

反向链接