title: 快速开始
快速开始指南
本指南帮助你快速上手量化投资技术文档中的内容。
🎯 我是新手,从哪里开始?
第一步:了解基础概念
如果你是量化投资的新手,建议按照以下顺序学习:
-
特征工程基础
- 阅读 Qlib特征工程全景概览
- 了解量化数据的特点和挑战
-
机器学习基础
- 阅读 Gradient Boosting原理
- 理解LightGBM的核心概念
-
实践应用
- 阅读 模型训练
- 开始动手构建你的第一个模型
📚 根据目标选择学习路径
路径A:因子研究
特征工程全景概览 → Horizon对齐详解 → 横截面标准化 → 相对强弱预测 → 实践指南
适合人群:专注于因子研发和优化的研究员
路径B:模型构建
Gradient Boosting原理 → 时序数据划分 → 模型训练 → IC评估指标 → 特征重要性分析
适合人群:负责构建和优化预测模型的开发者
路径C:量化交易
相对强弱预测 → IC/Rank IC评估 → 模型训练实战 → 特征工程实践
适合人群:希望将模型应用于实际交易的量化交易员
🛠️ 准备工作
环境配置
# 安装Python依赖
pip install qlib lightgbm numpy pandas scikit-learn scipy
# 安装可视化工具(可选)
pip install matplotlib seaborn shap数据准备
- 确保有量化数据源(股票行情、财务数据等)
- 推荐使用标准化的数据格式
- 注意数据的时序性和因果性
💻 快速示例
示例1:训练一个简单的LightGBM模型
import lightgbm as lgb
import numpy as np
# 准备数据
X_train = np.random.randn(1000, 50) # 1000个样本,50个特征
y_train = np.random.randn(1000) # 目标变量
X_val = np.random.randn(200, 50)
y_val = np.random.randn(200)
# 创建数据集
train_data = lgb.Dataset(X_train, label=y_train)
val_data = lgb.Dataset(X_val, label=y_val, reference=train_data)
# 设置参数
params = {
'objective': 'regression',
'metric': 'rmse',
'num_leaves': 31,
'learning_rate': 0.05,
}
# 训练模型
model = lgb.train(
params,
train_data,
num_boost_round=1000,
valid_sets=[train_data, val_data],
callbacks=[lgb.early_stopping(stopping_rounds=50)]
)
# 预测
y_pred = model.predict(X_val)示例2:计算IC指标
from scipy.stats import pearsonr
# 计算IC
ic = pearsonr(y_pred, y_val)[0]
print(f"IC = {ic:.4f}")❓ 常见问题
Q1: 如何处理时序数据的划分?
使用时间序列交叉验证,确保训练集严格在验证集之前。详细方法请参考 时序数据划分。
Q2: IC值多少算是好?
一般来说:
- IC > 0.05:优秀
- IC ∈ [0.02, 0.05]:良好
- IC < 0.02:较差
但具体要看市场和数据特性。
Q3: 如何避免未来信息泄露?
严格遵守因果性原则,确保在时刻t的预测只能使用t时刻及之前的数据。详细内容请参考 时序数据划分。
Q4: 如何选择LightGBM的参数?
建议从简单参数开始,逐步调优:
- 先设置
num_leaves和learning_rate - 调整
bagging_fraction和feature_fraction - 最后微调正则化参数
详见 模型训练。
📖 推荐阅读顺序
理论学习
实践应用
进阶提升
高级实战
🤝 获取帮助
- 仔细阅读相关文档,大部分问题都有详细解答
- 检查代码示例,确保理解每个步骤
- 在实践中不断尝试和调整参数