横截面因子研究 - 英文术语表

适用范围:content/quant/量化研究/横截面因子研究/展开讲/ 配套详解:./术语详细解释.md

第一次阅读这一组文档时,建议先看这份术语表。 这里把文档里反复出现的英文量化术语、阶段名、统计词、执行词和产物命名统一解释清楚。

0. 先讲两个阅读规则

  • 代码块里的 snake_case 名字,通常是“机器可读字段名”或“冻结合同字段名”,不是自然语言句子。
  • 文件名通常是“概念 + 文件格式”,例如 factor_manifest.yaml 可以拆成:
    • factor_manifest:因子元信息清单
    • yaml:一种适合写配置和结构化说明的文本格式

1. 阶段与治理术语

  • Mandate:研究立项与合同冻结阶段,先锁研究边界,再允许后续做数据、信号、训练和验证。
  • DataReady:数据底座冻结阶段,统一后续研究要使用的 date x asset 面板世界。
  • SignalReady:信号身份冻结阶段,明确因子是什么、扮演什么角色、如何被下游消费。
  • TrainFreeze:训练尺子冻结阶段,锁住预处理、中性化、分桶、调仓等后续必须复用的规则。
  • TestEvidence:证据验证阶段,在独立样本上看排序能力、稳定性和进入交易层的资格。
  • BacktestReady:交易层冻结阶段,锁组合表达、执行政策、风险覆盖、成本和容量口径。
  • HoldoutValidation:最终未见窗口验证阶段,检查冻结方案在最终独立窗口上是否仍成立。
  • Backtest:回测,用历史数据按既定交易规则模拟策略表现。
  • Holdout:最终保留、不参与设计和调参的未见验证窗口。
  • Train:训练窗,用来估计后续要复用的处理尺子和规则。
  • Test:独立测试窗,用来检验证据,但不直接宣布交易层胜利。
  • Shadow:影子运行阶段,不直接上真仓,但按接近实盘的方式跟踪表现。
  • PASS:通过,说明该阶段结论允许继续推进。
  • CONDITIONAL PASS:有条件通过,说明可以推进,但必须带着明确限制条件。
  • NO_GO:不通过,不允许继续推进到下一阶段。
  • CHILD LINEAGE:子谱系,表示后续工作已不是原研究线的正常延续,而是新分支。
  • lineage:谱系,指一条研究线从立项到验证的版本继承关系。
  • child lineage:子研究线,通常意味着研究边界、时间窗、执行表达等关键轴发生了改变。
  • review:正式复核,不是随口看一眼,而是按阶段纪律检查能不能过门。
  • formal gate:正式门禁,指阶段推进前必须满足的规则集合。
  • QROS:Quant Research OS,量化研究流程治理框架,用阶段冻结和评审门禁管理研究线。
  • kill_criteria:终止条件,指哪些情况出现后,这条研究线就不该继续按原路径推进。
  • failure_governance:失败治理规则,指失败时如何归因、如何处置、是否要终止或开新线。

2. 样本、市场与数据底座术语

  • cross_sectional_factor:横截面因子研究路线,核心问题是“同一时点不同资产谁更强、谁更弱”。
  • cross-sectional:横截面的,强调同一时间点跨资产比较,不是单一资产跨时间比较。
  • date x asset:研究样本的二维坐标,表示每条样本是“某一天的某个资产”。
  • panel:面板数据,通常就是按 date x asset 组织的二维表。
  • universe:样本池,指有资格进入横截面比较的资产集合。
  • Universe:如果在文中首字母大写,通常仍是指研究样本池这个概念。
  • venue:具体交易场所或撮合场,例如 binance_spotbybit_perp
  • venue_scope:允许纳入研究的交易场范围。
  • asset:资产,例如 BTC、ETH、SOL 这类可被比较和交易的标的。
  • asset_key:资产主键,机器识别某个资产所用的唯一字段。
  • date_key:时间主键,机器识别某个时点所用的唯一字段。
  • panel_frequency:面板频率,例如 1h4h1d,表示样本按多长时间间隔排列。
  • bar:K 线条,也可理解为某个固定时间粒度上的行情块。
  • bar_size:K 线粒度,例如 1h 表示 1 小时一根。
  • timezone:时区。
  • UTC:协调世界时,是量化研究里常用的统一时区标准。
  • close_time:K 线收盘时点。
  • open:开盘价。
  • close:收盘价。
  • next_bar_open:下一根 K 线开盘时点,常用来定义“信号最早何时可被交易”。
  • available_after:某数据或信号在什么时点之后才算可用。
  • signal_timestamp:信号对应的时间戳定义。
  • time_semantics:时间语义,指一个字段或信号到底对应什么时候、何时可见、何时可用。
  • timestamp_semantics:时间戳语义,含义与 time_semantics 接近,但更强调时间戳字段本身的定义。
  • time_split:时间切分合同,明确 train/test/backtest/holdout 各自的起止区间。
  • horizon:预测或评价视角的持有期,例如 1 天后、5 天后的收益。
  • best_h / best_horizon:表现最好的持有期。文档通常提醒不要在上游阶段被这种事后最优口径带偏。
  • lag:时滞,指信号生成到实际交易或生效之间间隔多少时间。
  • T:当前信号时点。
  • T+1:下一个交易时点或下一期,常用来表达“下一期才交易”。
  • market:市场,可以指现货、永续、股票、期货等大的交易场景。
  • crypto:加密资产市场。
  • binance_spot:币安现货市场。
  • binance_futures:币安合约市场。
  • bybit_perp:Bybit 永续合约市场。
  • okx_spot:OKX 现货市场。

3. 数据合同与分类术语

  • data_contract:数据合同,规定允许使用哪些数据、时间语义如何定义、怎样对齐到研究样本。
  • panel_contract:面板合同,规定数据面板长什么样、主键是什么、频率是什么。
  • panel_manifest:面板元信息清单,记录主键、频率、时区、覆盖规则等信息。
  • taxonomy:资产分类体系,例如把资产分成 layer1defimeme 等类别。
  • taxonomy_contract:分类体系合同,规定分类来自哪里、版本是什么、如何复现。
  • asset_universe_membership:样本池成员关系,记录“某个时点这个资产是否属于研究 universe”。
  • membership:成员关系,通常就是指某资产在某时点是否属于某个集合。
  • eligibility:基础可研究性,指“这个观测在当前时点是否具备研究资格”。
  • eligibility_contract:基础可研究性合同,规定哪些条件决定一个样本是否可研究。
  • eligibility_base_mask:基础可研究性掩码表,通常用真假值表示每个样本是否合格。
  • mask:掩码表,常用真假值表示“某样本是否满足条件”。
  • shared_feature_base:共享基础特征层,指后续多个阶段都会复用的基础字段集合。
  • feature:特征,泛指用来描述资产、环境或信号的变量。
  • field:字段,数据表中的列名或属性。
  • fields:字段集合。
  • log_market_cap:市值取对数后的字段,常用于中性化或控制大小盘暴露。
  • market cap:市值,资产总市值。
  • volume_24h / rolling_volume_24h:24 小时滚动成交量。
  • days_listed:上市天数。
  • listing_days:某资产已上市了多少天,常用来过滤新上市资产。
  • beta_30d:过去 30 天估出来的 beta 暴露。
  • stablecoin / stablecoins:稳定币,价格锚定某种资产或法币。
  • leveraged_tokens:杠杆代币,自带杠杆结构的交易产品。
  • exchange_token:交易所平台币。
  • layer1:公链基础层项目类别。
  • defi:去中心化金融类别。
  • meme:meme 币或 meme 类资产类别。
  • lookahead:前视偏差,指不小心用到了当时本不该知道的信息。
  • leakage:信息泄漏,常指未来信息或下游信息被提前带回上游。
  • replay:重放,指按原始输入和原始配置重新跑出同样结果。
  • rebuild:重建,指根据合同和产物重新生成相同数据或结果。
  • price_source:价格数据来源。
  • liquidity_source:流动性数据来源。
  • spot_klines:现货 K 线数据源。
  • coverage_rule:覆盖规则,定义在什么条件下某样本才算进入正式覆盖范围。
  • category:分类标签。
  • symbol:交易符号,例如 BTCUSDT 这类资产代码。

4. 因子、信号与角色术语

  • factor:因子,用来给资产打分、排序或过滤的研究对象。
  • signal:信号,通常是最终被下游训练、测试或组合消费的可执行打分或条件。
  • alpha:超额收益来源。文档里说“候选 alpha”时,通常指可能带来独立收益解释力的因子。
  • standalone_alpha:单独就应该具备横截面排序能力的因子角色。
  • regime_filter:环境过滤器,用来判断在什么市场状态下应当启用或停用某策略。
  • combo_filter:组合过滤器,用来在组合层做条件筛选或约束,而不是单独打分。
  • single_factor:单因子,最终输出只由一个核心因子逻辑决定。
  • multi_factor_score:多因子确定性打分,用多个字段按固定公式组合成一个分数。
  • factor_id:因子唯一标识符。
  • factor_name:因子名称。
  • factor_identity:因子身份信息,包括输入字段、派生字段、时间语义等。
  • identity:身份定义,强调“这个对象到底是什么”。
  • factor_role_contract:因子角色合同,规定这个因子后续应按哪类证据逻辑被检验。
  • factor_structure_contract:因子结构合同,规定它是单因子还是多因子,内部怎么组合。
  • factor_role:因子角色本身。
  • factor_structure:因子结构本身。
  • raw_factor_fields:原始输入字段。
  • derived_factor_fields:派生字段,即由原始字段加工出来的中间变量。
  • factor_panel:按 date x asset 组织的因子值面板。
  • factor_selection:因子筛选结果,记录哪些对象被保留进入下一阶段。
  • factor_manifest:因子元信息清单,记录因子身份、版本、依赖字段等。
  • factor_coverage:因子覆盖率,表示在多少样本、多少时点上有有效因子值。
  • factor_contract:因子合同,泛指约束因子身份、角色和结构的规则集合。
  • selected_factor_spec:被正式选中进入下游阶段的因子规格说明。
  • expression:表达方式,指信号或组合最终以什么形式被使用。
  • portfolio_expression:信号最终准备怎样映射成组合表达。
  • long_only_rank:只做多的排序表达,通常买入高分资产,不做空低分资产。
  • long_short_market_neutral:多空市场中性表达,通常做多高分、做空低分,并尽量控制整体市场暴露。
  • market_beta_neutral:市场 beta 中性化,尽量去掉整体市场方向暴露。
  • group_neutral:分组中性化,尽量在每个分类组内部做平衡,减少行业或板块偏差。
  • neutralization:中性化,指把某些已知暴露从信号或组合里剥离出去。
  • neutralization_policy:中性化政策,规定要不要中性化、对哪些暴露做中性化、按什么规则做。
  • deterministic:确定性的,意思是给定同样输入一定得到同样输出,不依赖训练学出来的参数。
  • gating:门控,根据某个条件决定是否允许某信号或组合生效。
  • filter:过滤条件,用来筛掉不满足条件的样本或时点。
  • combo:组合体,强调多个因子、条件或模块共同作用。
  • gated:加了过滤条件后的版本。
  • ungated:没加过滤条件的原始版本。
  • momentum:动量,通常指过去一段时间涨得越多、后续越可能继续强势的特征。
  • turnover:换手或成交活跃度。
  • VWAP:成交量加权平均价。
  • RSI:相对强弱指标。
  • MOM_20D:20 日动量因子 ID。
  • ret_20d:20 日收益率。
  • score:分数,通常指因子对资产打出来的排序值。
  • score weighted:按分数大小分配权重,而不是简单等权。
  • weights:组合权重。
  • ID:标识符,意思与 identifier 接近。

5. 训练、统计证据与评估术语

  • preprocess_contract:预处理合同,规定因子值在进入正式评估前如何清洗和整理。
  • preprocess:预处理,指正式评估前的清洗、变换和标准化步骤。
  • winsorize:去极值,把特别极端的值截到某个分位边界上。
  • clipping:裁剪,把超出某范围的值直接截断。
  • zscore:标准分,把变量转成“离均值多少个标准差”的形式。
  • cross_sectional_zscore:横截面标准化,在每个时点上对资产截面做 z-score。
  • standardize:标准化,把不同量纲的变量转成可比较的尺度。
  • rank transform:排名变换,把原值变成排名或百分位。
  • MAD:中位数绝对偏差,一种鲁棒的离散度衡量方式。
  • mad_3:常表示按 3 倍 MAD 做异常值处理的规则。
  • neutralization_contract:中性化合同,规定训练窗里如何做暴露剥离。
  • ranking_bucket_contract:分桶合同,规定横截面怎么分组比较。
  • bucket:分桶、分组,例如把资产按分数从高到低分成若干组。
  • quintile:五分位,把截面分成 5 组。
  • decile:十分位,把截面分成 10 组。
  • tercile / tertile:三分位,把截面分成 3 组。
  • ties:并列值处理规则,指多个资产分数相同时怎么处理。
  • min_cross_section_size:最小横截面样本数,样本太少时通常不做正式评估。
  • rebalance:调仓,按既定频率或触发条件更新组合持仓。
  • rebalance_contract:调仓合同,规定调仓频率、触发模式和辅助条件。
  • schedule_only / scheduled_only:只允许按预定时间表调仓,不接受额外临时触发。
  • auxiliary_conditions:辅助条件,指额外的触发或限制条件。
  • variant:候选版本,指同一研究对象在某个治理轴上的不同方案。
  • variant ledger:候选版本台账,记录每个版本为什么保留、为什么淘汰。
  • reject ledger:拒绝台账,记录哪些尝试被拒绝及其原因。
  • OOS:out of sample,样本外,也就是训练之外的独立评估数据。
  • Rank IC:排序信息系数,看因子排序与后续收益排序之间的相关性。
  • IC:information coefficient,信息系数,是排序相关性的一种常见写法。
  • ICIR:信息系数的信息比率,衡量 IC 的稳定性。
  • Sharpe:夏普比率,用超额收益除以波动来衡量风险调整后的收益质量。
  • bps:basis points,基点;1 bps = 0.01%
  • bucket returns:各分桶后续收益,常用来看高分组和低分组是否分层明显。
  • monotonicity:单调性,指分桶收益是否大体按分数高低有序排列。
  • breadth:广度,通常指信号是否在足够多的样本、资产或时期上成立。
  • coverage:覆盖率,指有多少样本有有效数据或有效信号。
  • qcut:按分位数切分样本的分桶操作。
  • admissibility:可准入性,指一个对象是否值得进入下一阶段。
  • admissibility_contract:可准入性合同,规定什么样的证据和质量才允许继续推进。
  • audit_contract:审计合同,规定必须留下哪些证据、比较和说明。
  • gated vs ungated:有过滤条件和无过滤条件两个版本的对比。
  • regime:市场状态或市场环境,例如高波动、低波动、趋势、震荡。
  • rolling OOS:滚动样本外评估,按多个连续窗口反复做样本外检验。

6. 组合、执行、风险与容量术语

  • execution_policy:执行政策,规定信号如何映射成实际交易动作。
  • execution_contract:执行表达合同,强调研究结果最终准备用什么交易表达被消费。
  • execution:执行层,指从信号到下单、成交、持仓更新这一整层动作。
  • signal to trade lag:信号到交易的时滞。
  • maker:挂单成交的一方,通常手续费更低,但不保证及时成交。
  • taker:吃单成交的一方,通常更容易立即成交,但成本更高。
  • maker/taker:挂单与吃单两种成交方式及其成本口径。
  • portfolio_policy:组合政策,规定怎么把信号变成组合持仓。
  • portfolio:组合,一组资产持仓及其权重。
  • portfolio_weight_panel:按时间和资产记录组合权重的面板表。
  • long:做多,押注资产上涨获利。
  • short:做空,押注资产下跌获利。
  • market neutral / neutral:市场中性,尽量不押注整体市场涨跌方向。
  • risk_overlay:风险叠加约束层,在原始组合之上再加暴露、权重、参与率等限制。
  • beta neutral:让组合整体 beta 接近 0,减少市场方向暴露。
  • group exposure / sector exposure:某个分类组或板块上的暴露。
  • drawdown:回撤,净值从高点回落的幅度。
  • tail risk:尾部风险,极端坏情况带来的损失风险。
  • cost model:成本模型,规定手续费、滑点、资金费率等怎么估算。
  • liquidity:流动性,指资产能否以合理成本成交。
  • capacity:容量,指策略在多大资金规模下仍能维持原有逻辑和表现。
  • participation rate:参与率,指策略成交量占市场成交量的比例。
  • engine_contract:引擎合同,规定结果是由什么回测实现和什么口径跑出来的。
  • vectorized:向量化实现,通常按数组批量计算,速度快。
  • event-driven:事件驱动实现,按交易事件逐条推进,更接近真实撮合逻辑。

7. Holdout 与解释性审计术语

  • window_contract:窗口合同,规定某个评估阶段到底消费哪段时间窗、允许消费几次。
  • reuse_contract:复用合同,规定 Holdout 或下游阶段允许复用哪些冻结对象,绝对不能改哪些。
  • drift_audit:漂移审计,检查结果与上游或历史相比偏离了多少,以及偏离原因。
  • holdout_backtest_compare:Holdout 与 Backtest 的对比结果,用来比较未见窗口与历史回测的一致性。
  • verdict:正式结论,例如 PASSNO_GO

8. 常见研究字段名与意图字段

  • research_intent:研究意图,说明为什么研究这条线。
  • observation:观察到的市场现象。
  • hypothesis:核心研究假设。
  • counter_hypothesis:反假设,指这条研究线可能只是错觉或替代解释。
  • research_route:研究路线,说明这是横截面研究、时序研究还是别的路线。
  • scope_contract:范围合同,规定研究允许覆盖多大范围、允许哪些结构。
  • target_market:目标市场定义。
  • universe_rule:样本池构造规则。
  • exclusions:排除规则。
  • route:路线。
  • rule / rules:规则。
  • command:命令,通常指重放或重建该阶段产物所用的程序命令。
  • run_manifest:运行清单,记录某次执行是怎么跑出来的。
  • stage_completion_certificate:阶段完成证明,说明该阶段产物已经正式冻结完成。
  • artifact:产物,指阶段输出的文件、表格、报告和配置。
  • artifact_catalog:产物目录清单。
  • field_dictionary:字段说明字典。
  • window_results:分窗口结果目录。
  • frozen:冻结版,表示这是已锁定、不应被静默修改的版本。
  • freeze:冻结动作本身。
  • delivery_contract:交付合同,规定本阶段必须落哪些产物,供下游怎样直接消费。
  • formal_gate_contract:正式门禁合同,规定这一阶段真正按什么规则判定过不过门。
  • split:切分,通常指时间切分。
  • schedule:时间表式触发规则。
  • frequency:频率。
  • timestamp:时间戳。
  • key:主键或唯一识别字段。
  • criteria:判定标准。
  • formula:公式。
  • role:角色。
  • structure:结构。
  • derived:派生得到的。
  • raw:原始的。
  • base:基础层。
  • shared:共享层。
  • eligible:符合基础研究资格。
  • listing:上市相关状态。
  • drift:漂移,指结果或分布相对历史或上游发生偏离。
  • audit:审计,指系统性检查证据和偏离来源。
  • volume:成交量。
  • size:大小暴露,常指市值大小这一维。
  • standalone:单独成立、不依赖别的模块一起消费。
  • none:无,表示不启用某类处理,例如不做中性化。

9. 常见产物命名后缀

  • contract:合同,定义规则边界和不允许被静默修改的东西。
  • policy:政策,定义执行层或消费层的具体规则。
  • spec:规格说明,强调“冻结方案到底长什么样”。
  • manifest:清单,记录产物元信息、版本和来源。
  • ledger:台账,记录选择、拒绝、版本变化和原因。
  • catalog:目录清单,记录有哪些产物、它们分别是什么。
  • dictionary:字段字典,解释每个字段是什么意思。
  • coverage:覆盖说明,通常是覆盖率或有效样本范围的记录。
  • report:报告,偏解释性和总结性输出。
  • decision:决策文件,记录阶段结论和原因。

10. 常见文件格式后缀

  • csv:逗号分隔表格文件,适合看明细或导入表格工具。
  • json:结构化数据文件,适合机器读取。
  • yaml:结构化配置文件,适合写规则和元信息。
  • parquet:列式数据文件,常用于保存大规模面板数据或回测结果。
  • md:Markdown 文档文件,适合写说明、报告和决策记录。

11. 机器学习写法在这些文档里的位置

  • X_train:训练输入特征矩阵。
  • y_train:训练目标变量。
  • fit_model(...):拟合模型。文档里出现它,通常是在提醒“这一步不应该提前出现在 SignalReady 之类的上游阶段”。

12. 读这组文档时最重要的口径

  • 如果一个术语在上游阶段出现,重点先看它是在“定义合同”,还是已经在“宣布结果”。
  • 如果一个词出现在文件名里,先看词根概念,不要被格式后缀分散注意力。
  • 如果一个词带下划线,多半是机器字段名;把它翻回自然语言后再看作者在约束什么。

13. 文件名怎么读

很多看起来“很长的英文词”其实只是概念名加文件格式,不是新的神秘术语。

  • factor_panel.parquet:因子面板数据文件。
  • factor_selection.csv:因子筛选结果表。
  • engine_compare.csv:不同回测实现的对比表。
  • holdout_gate_decision.md:Holdout 阶段的正式结论文档。
  • strategy_combo_ledger.csv:组合方案取舍台账。

读法上先拆词根,再看后缀:

  • 词根解释“它是什么”
  • 后缀解释“它以什么文件形式保存”