横截面因子研究 - 英文术语表
适用范围:
content/quant/量化研究/横截面因子研究/展开讲/配套详解:./术语详细解释.md
第一次阅读这一组文档时,建议先看这份术语表。 这里把文档里反复出现的英文量化术语、阶段名、统计词、执行词和产物命名统一解释清楚。
0. 先讲两个阅读规则
- 代码块里的
snake_case名字,通常是“机器可读字段名”或“冻结合同字段名”,不是自然语言句子。 - 文件名通常是“概念 + 文件格式”,例如
factor_manifest.yaml可以拆成:factor_manifest:因子元信息清单yaml:一种适合写配置和结构化说明的文本格式
1. 阶段与治理术语
Mandate:研究立项与合同冻结阶段,先锁研究边界,再允许后续做数据、信号、训练和验证。DataReady:数据底座冻结阶段,统一后续研究要使用的date x asset面板世界。SignalReady:信号身份冻结阶段,明确因子是什么、扮演什么角色、如何被下游消费。TrainFreeze:训练尺子冻结阶段,锁住预处理、中性化、分桶、调仓等后续必须复用的规则。TestEvidence:证据验证阶段,在独立样本上看排序能力、稳定性和进入交易层的资格。BacktestReady:交易层冻结阶段,锁组合表达、执行政策、风险覆盖、成本和容量口径。HoldoutValidation:最终未见窗口验证阶段,检查冻结方案在最终独立窗口上是否仍成立。Backtest:回测,用历史数据按既定交易规则模拟策略表现。Holdout:最终保留、不参与设计和调参的未见验证窗口。Train:训练窗,用来估计后续要复用的处理尺子和规则。Test:独立测试窗,用来检验证据,但不直接宣布交易层胜利。Shadow:影子运行阶段,不直接上真仓,但按接近实盘的方式跟踪表现。PASS:通过,说明该阶段结论允许继续推进。CONDITIONAL PASS:有条件通过,说明可以推进,但必须带着明确限制条件。NO_GO:不通过,不允许继续推进到下一阶段。CHILD LINEAGE:子谱系,表示后续工作已不是原研究线的正常延续,而是新分支。lineage:谱系,指一条研究线从立项到验证的版本继承关系。child lineage:子研究线,通常意味着研究边界、时间窗、执行表达等关键轴发生了改变。review:正式复核,不是随口看一眼,而是按阶段纪律检查能不能过门。formal gate:正式门禁,指阶段推进前必须满足的规则集合。QROS:Quant Research OS,量化研究流程治理框架,用阶段冻结和评审门禁管理研究线。kill_criteria:终止条件,指哪些情况出现后,这条研究线就不该继续按原路径推进。failure_governance:失败治理规则,指失败时如何归因、如何处置、是否要终止或开新线。
2. 样本、市场与数据底座术语
cross_sectional_factor:横截面因子研究路线,核心问题是“同一时点不同资产谁更强、谁更弱”。cross-sectional:横截面的,强调同一时间点跨资产比较,不是单一资产跨时间比较。date x asset:研究样本的二维坐标,表示每条样本是“某一天的某个资产”。panel:面板数据,通常就是按date x asset组织的二维表。universe:样本池,指有资格进入横截面比较的资产集合。Universe:如果在文中首字母大写,通常仍是指研究样本池这个概念。venue:具体交易场所或撮合场,例如binance_spot、bybit_perp。venue_scope:允许纳入研究的交易场范围。asset:资产,例如 BTC、ETH、SOL 这类可被比较和交易的标的。asset_key:资产主键,机器识别某个资产所用的唯一字段。date_key:时间主键,机器识别某个时点所用的唯一字段。panel_frequency:面板频率,例如1h、4h、1d,表示样本按多长时间间隔排列。bar:K 线条,也可理解为某个固定时间粒度上的行情块。bar_size:K 线粒度,例如1h表示 1 小时一根。timezone:时区。UTC:协调世界时,是量化研究里常用的统一时区标准。close_time:K 线收盘时点。open:开盘价。close:收盘价。next_bar_open:下一根 K 线开盘时点,常用来定义“信号最早何时可被交易”。available_after:某数据或信号在什么时点之后才算可用。signal_timestamp:信号对应的时间戳定义。time_semantics:时间语义,指一个字段或信号到底对应什么时候、何时可见、何时可用。timestamp_semantics:时间戳语义,含义与time_semantics接近,但更强调时间戳字段本身的定义。time_split:时间切分合同,明确 train/test/backtest/holdout 各自的起止区间。horizon:预测或评价视角的持有期,例如 1 天后、5 天后的收益。best_h/best_horizon:表现最好的持有期。文档通常提醒不要在上游阶段被这种事后最优口径带偏。lag:时滞,指信号生成到实际交易或生效之间间隔多少时间。T:当前信号时点。T+1:下一个交易时点或下一期,常用来表达“下一期才交易”。market:市场,可以指现货、永续、股票、期货等大的交易场景。crypto:加密资产市场。binance_spot:币安现货市场。binance_futures:币安合约市场。bybit_perp:Bybit 永续合约市场。okx_spot:OKX 现货市场。
3. 数据合同与分类术语
data_contract:数据合同,规定允许使用哪些数据、时间语义如何定义、怎样对齐到研究样本。panel_contract:面板合同,规定数据面板长什么样、主键是什么、频率是什么。panel_manifest:面板元信息清单,记录主键、频率、时区、覆盖规则等信息。taxonomy:资产分类体系,例如把资产分成layer1、defi、meme等类别。taxonomy_contract:分类体系合同,规定分类来自哪里、版本是什么、如何复现。asset_universe_membership:样本池成员关系,记录“某个时点这个资产是否属于研究 universe”。membership:成员关系,通常就是指某资产在某时点是否属于某个集合。eligibility:基础可研究性,指“这个观测在当前时点是否具备研究资格”。eligibility_contract:基础可研究性合同,规定哪些条件决定一个样本是否可研究。eligibility_base_mask:基础可研究性掩码表,通常用真假值表示每个样本是否合格。mask:掩码表,常用真假值表示“某样本是否满足条件”。shared_feature_base:共享基础特征层,指后续多个阶段都会复用的基础字段集合。feature:特征,泛指用来描述资产、环境或信号的变量。field:字段,数据表中的列名或属性。fields:字段集合。log_market_cap:市值取对数后的字段,常用于中性化或控制大小盘暴露。market cap:市值,资产总市值。volume_24h/rolling_volume_24h:24 小时滚动成交量。days_listed:上市天数。listing_days:某资产已上市了多少天,常用来过滤新上市资产。beta_30d:过去 30 天估出来的 beta 暴露。stablecoin/stablecoins:稳定币,价格锚定某种资产或法币。leveraged_tokens:杠杆代币,自带杠杆结构的交易产品。exchange_token:交易所平台币。layer1:公链基础层项目类别。defi:去中心化金融类别。meme:meme 币或 meme 类资产类别。lookahead:前视偏差,指不小心用到了当时本不该知道的信息。leakage:信息泄漏,常指未来信息或下游信息被提前带回上游。replay:重放,指按原始输入和原始配置重新跑出同样结果。rebuild:重建,指根据合同和产物重新生成相同数据或结果。price_source:价格数据来源。liquidity_source:流动性数据来源。spot_klines:现货 K 线数据源。coverage_rule:覆盖规则,定义在什么条件下某样本才算进入正式覆盖范围。category:分类标签。symbol:交易符号,例如BTCUSDT这类资产代码。
4. 因子、信号与角色术语
factor:因子,用来给资产打分、排序或过滤的研究对象。signal:信号,通常是最终被下游训练、测试或组合消费的可执行打分或条件。alpha:超额收益来源。文档里说“候选 alpha”时,通常指可能带来独立收益解释力的因子。standalone_alpha:单独就应该具备横截面排序能力的因子角色。regime_filter:环境过滤器,用来判断在什么市场状态下应当启用或停用某策略。combo_filter:组合过滤器,用来在组合层做条件筛选或约束,而不是单独打分。single_factor:单因子,最终输出只由一个核心因子逻辑决定。multi_factor_score:多因子确定性打分,用多个字段按固定公式组合成一个分数。factor_id:因子唯一标识符。factor_name:因子名称。factor_identity:因子身份信息,包括输入字段、派生字段、时间语义等。identity:身份定义,强调“这个对象到底是什么”。factor_role_contract:因子角色合同,规定这个因子后续应按哪类证据逻辑被检验。factor_structure_contract:因子结构合同,规定它是单因子还是多因子,内部怎么组合。factor_role:因子角色本身。factor_structure:因子结构本身。raw_factor_fields:原始输入字段。derived_factor_fields:派生字段,即由原始字段加工出来的中间变量。factor_panel:按date x asset组织的因子值面板。factor_selection:因子筛选结果,记录哪些对象被保留进入下一阶段。factor_manifest:因子元信息清单,记录因子身份、版本、依赖字段等。factor_coverage:因子覆盖率,表示在多少样本、多少时点上有有效因子值。factor_contract:因子合同,泛指约束因子身份、角色和结构的规则集合。selected_factor_spec:被正式选中进入下游阶段的因子规格说明。expression:表达方式,指信号或组合最终以什么形式被使用。portfolio_expression:信号最终准备怎样映射成组合表达。long_only_rank:只做多的排序表达,通常买入高分资产,不做空低分资产。long_short_market_neutral:多空市场中性表达,通常做多高分、做空低分,并尽量控制整体市场暴露。market_beta_neutral:市场 beta 中性化,尽量去掉整体市场方向暴露。group_neutral:分组中性化,尽量在每个分类组内部做平衡,减少行业或板块偏差。neutralization:中性化,指把某些已知暴露从信号或组合里剥离出去。neutralization_policy:中性化政策,规定要不要中性化、对哪些暴露做中性化、按什么规则做。deterministic:确定性的,意思是给定同样输入一定得到同样输出,不依赖训练学出来的参数。gating:门控,根据某个条件决定是否允许某信号或组合生效。filter:过滤条件,用来筛掉不满足条件的样本或时点。combo:组合体,强调多个因子、条件或模块共同作用。gated:加了过滤条件后的版本。ungated:没加过滤条件的原始版本。momentum:动量,通常指过去一段时间涨得越多、后续越可能继续强势的特征。turnover:换手或成交活跃度。VWAP:成交量加权平均价。RSI:相对强弱指标。MOM_20D:20 日动量因子 ID。ret_20d:20 日收益率。score:分数,通常指因子对资产打出来的排序值。score weighted:按分数大小分配权重,而不是简单等权。weights:组合权重。ID:标识符,意思与 identifier 接近。
5. 训练、统计证据与评估术语
preprocess_contract:预处理合同,规定因子值在进入正式评估前如何清洗和整理。preprocess:预处理,指正式评估前的清洗、变换和标准化步骤。winsorize:去极值,把特别极端的值截到某个分位边界上。clipping:裁剪,把超出某范围的值直接截断。zscore:标准分,把变量转成“离均值多少个标准差”的形式。cross_sectional_zscore:横截面标准化,在每个时点上对资产截面做 z-score。standardize:标准化,把不同量纲的变量转成可比较的尺度。rank transform:排名变换,把原值变成排名或百分位。MAD:中位数绝对偏差,一种鲁棒的离散度衡量方式。mad_3:常表示按 3 倍 MAD 做异常值处理的规则。neutralization_contract:中性化合同,规定训练窗里如何做暴露剥离。ranking_bucket_contract:分桶合同,规定横截面怎么分组比较。bucket:分桶、分组,例如把资产按分数从高到低分成若干组。quintile:五分位,把截面分成 5 组。decile:十分位,把截面分成 10 组。tercile/tertile:三分位,把截面分成 3 组。ties:并列值处理规则,指多个资产分数相同时怎么处理。min_cross_section_size:最小横截面样本数,样本太少时通常不做正式评估。rebalance:调仓,按既定频率或触发条件更新组合持仓。rebalance_contract:调仓合同,规定调仓频率、触发模式和辅助条件。schedule_only/scheduled_only:只允许按预定时间表调仓,不接受额外临时触发。auxiliary_conditions:辅助条件,指额外的触发或限制条件。variant:候选版本,指同一研究对象在某个治理轴上的不同方案。variant ledger:候选版本台账,记录每个版本为什么保留、为什么淘汰。reject ledger:拒绝台账,记录哪些尝试被拒绝及其原因。OOS:out of sample,样本外,也就是训练之外的独立评估数据。Rank IC:排序信息系数,看因子排序与后续收益排序之间的相关性。IC:information coefficient,信息系数,是排序相关性的一种常见写法。ICIR:信息系数的信息比率,衡量 IC 的稳定性。Sharpe:夏普比率,用超额收益除以波动来衡量风险调整后的收益质量。bps:basis points,基点;1 bps = 0.01%。bucket returns:各分桶后续收益,常用来看高分组和低分组是否分层明显。monotonicity:单调性,指分桶收益是否大体按分数高低有序排列。breadth:广度,通常指信号是否在足够多的样本、资产或时期上成立。coverage:覆盖率,指有多少样本有有效数据或有效信号。qcut:按分位数切分样本的分桶操作。admissibility:可准入性,指一个对象是否值得进入下一阶段。admissibility_contract:可准入性合同,规定什么样的证据和质量才允许继续推进。audit_contract:审计合同,规定必须留下哪些证据、比较和说明。gated vs ungated:有过滤条件和无过滤条件两个版本的对比。regime:市场状态或市场环境,例如高波动、低波动、趋势、震荡。rolling OOS:滚动样本外评估,按多个连续窗口反复做样本外检验。
6. 组合、执行、风险与容量术语
execution_policy:执行政策,规定信号如何映射成实际交易动作。execution_contract:执行表达合同,强调研究结果最终准备用什么交易表达被消费。execution:执行层,指从信号到下单、成交、持仓更新这一整层动作。signal to trade lag:信号到交易的时滞。maker:挂单成交的一方,通常手续费更低,但不保证及时成交。taker:吃单成交的一方,通常更容易立即成交,但成本更高。maker/taker:挂单与吃单两种成交方式及其成本口径。portfolio_policy:组合政策,规定怎么把信号变成组合持仓。portfolio:组合,一组资产持仓及其权重。portfolio_weight_panel:按时间和资产记录组合权重的面板表。long:做多,押注资产上涨获利。short:做空,押注资产下跌获利。market neutral/neutral:市场中性,尽量不押注整体市场涨跌方向。risk_overlay:风险叠加约束层,在原始组合之上再加暴露、权重、参与率等限制。beta neutral:让组合整体 beta 接近 0,减少市场方向暴露。group exposure/sector exposure:某个分类组或板块上的暴露。drawdown:回撤,净值从高点回落的幅度。tail risk:尾部风险,极端坏情况带来的损失风险。cost model:成本模型,规定手续费、滑点、资金费率等怎么估算。liquidity:流动性,指资产能否以合理成本成交。capacity:容量,指策略在多大资金规模下仍能维持原有逻辑和表现。participation rate:参与率,指策略成交量占市场成交量的比例。engine_contract:引擎合同,规定结果是由什么回测实现和什么口径跑出来的。vectorized:向量化实现,通常按数组批量计算,速度快。event-driven:事件驱动实现,按交易事件逐条推进,更接近真实撮合逻辑。
7. Holdout 与解释性审计术语
window_contract:窗口合同,规定某个评估阶段到底消费哪段时间窗、允许消费几次。reuse_contract:复用合同,规定 Holdout 或下游阶段允许复用哪些冻结对象,绝对不能改哪些。drift_audit:漂移审计,检查结果与上游或历史相比偏离了多少,以及偏离原因。holdout_backtest_compare:Holdout 与 Backtest 的对比结果,用来比较未见窗口与历史回测的一致性。verdict:正式结论,例如PASS、NO_GO。
8. 常见研究字段名与意图字段
research_intent:研究意图,说明为什么研究这条线。observation:观察到的市场现象。hypothesis:核心研究假设。counter_hypothesis:反假设,指这条研究线可能只是错觉或替代解释。research_route:研究路线,说明这是横截面研究、时序研究还是别的路线。scope_contract:范围合同,规定研究允许覆盖多大范围、允许哪些结构。target_market:目标市场定义。universe_rule:样本池构造规则。exclusions:排除规则。route:路线。rule/rules:规则。command:命令,通常指重放或重建该阶段产物所用的程序命令。run_manifest:运行清单,记录某次执行是怎么跑出来的。stage_completion_certificate:阶段完成证明,说明该阶段产物已经正式冻结完成。artifact:产物,指阶段输出的文件、表格、报告和配置。artifact_catalog:产物目录清单。field_dictionary:字段说明字典。window_results:分窗口结果目录。frozen:冻结版,表示这是已锁定、不应被静默修改的版本。freeze:冻结动作本身。delivery_contract:交付合同,规定本阶段必须落哪些产物,供下游怎样直接消费。formal_gate_contract:正式门禁合同,规定这一阶段真正按什么规则判定过不过门。split:切分,通常指时间切分。schedule:时间表式触发规则。frequency:频率。timestamp:时间戳。key:主键或唯一识别字段。criteria:判定标准。formula:公式。role:角色。structure:结构。derived:派生得到的。raw:原始的。base:基础层。shared:共享层。eligible:符合基础研究资格。listing:上市相关状态。drift:漂移,指结果或分布相对历史或上游发生偏离。audit:审计,指系统性检查证据和偏离来源。volume:成交量。size:大小暴露,常指市值大小这一维。standalone:单独成立、不依赖别的模块一起消费。none:无,表示不启用某类处理,例如不做中性化。
9. 常见产物命名后缀
contract:合同,定义规则边界和不允许被静默修改的东西。policy:政策,定义执行层或消费层的具体规则。spec:规格说明,强调“冻结方案到底长什么样”。manifest:清单,记录产物元信息、版本和来源。ledger:台账,记录选择、拒绝、版本变化和原因。catalog:目录清单,记录有哪些产物、它们分别是什么。dictionary:字段字典,解释每个字段是什么意思。coverage:覆盖说明,通常是覆盖率或有效样本范围的记录。report:报告,偏解释性和总结性输出。decision:决策文件,记录阶段结论和原因。
10. 常见文件格式后缀
csv:逗号分隔表格文件,适合看明细或导入表格工具。json:结构化数据文件,适合机器读取。yaml:结构化配置文件,适合写规则和元信息。parquet:列式数据文件,常用于保存大规模面板数据或回测结果。md:Markdown 文档文件,适合写说明、报告和决策记录。
11. 机器学习写法在这些文档里的位置
X_train:训练输入特征矩阵。y_train:训练目标变量。fit_model(...):拟合模型。文档里出现它,通常是在提醒“这一步不应该提前出现在 SignalReady 之类的上游阶段”。
12. 读这组文档时最重要的口径
- 如果一个术语在上游阶段出现,重点先看它是在“定义合同”,还是已经在“宣布结果”。
- 如果一个词出现在文件名里,先看词根概念,不要被格式后缀分散注意力。
- 如果一个词带下划线,多半是机器字段名;把它翻回自然语言后再看作者在约束什么。
13. 文件名怎么读
很多看起来“很长的英文词”其实只是概念名加文件格式,不是新的神秘术语。
factor_panel.parquet:因子面板数据文件。factor_selection.csv:因子筛选结果表。engine_compare.csv:不同回测实现的对比表。holdout_gate_decision.md:Holdout 阶段的正式结论文档。strategy_combo_ledger.csv:组合方案取舍台账。
读法上先拆词根,再看后缀:
- 词根解释“它是什么”
- 后缀解释“它以什么文件形式保存”