收藏本站 网站导航 开放平台 Thursday, May 15, 2025 星期四
  • 微信

海通金工 | 选股因子系列研究(八十六)——深度学习高频因子的特征工程

来源 外汇天眼 02-01 07:00
海通金工 | 选股因子系列研究(八十六)——深度学习高频因子的特征工程

  以下文章来源于海通量化团队,作者海通量化团队

  冯佳睿

  海通金融工程研究首席分析师

  S0850512080006

  投资要点

  近年来,高频数据逐渐成为量化策略中一类重要的 Alpha 来源。除了用传统的基于人工逻辑的方式构建高频因子外,深度学习也是一种高效、可行的高频因子构建方法。然而,我们在日常的路演交流中发现,初涉深度学习的投资者往往对深度学习高频因子的特征工程(如,特征的构建、处理、归因和筛选)存在各种各样的研究需求。因此,本文旨在通过多方面的对比测试,为广大投资者在特征工程层面提供一定的参考。

  深度学习高频因子的特征构建。本文使用“原始数据-分钟级基础指标-目标频率衍生指标”的方式生成高频特征。即,基于原始数据生成一系列分钟级的基础指标,这类指标旨在捕捉原始数据中的基本信息。因此计算往往不会过于复杂,它们将作为后续特征计算的输入数据。得到基础指标序列后,本文先确定算子,再通过不断变换输入的基础指标序列生成特征。其中,算子既可以由简单的四则混合运算或统计计算衍化得到,也可以从人工逻辑因子研发经验中归纳总结。

  深度学习高频因子的特征处理。具体包括,分布调整、极值处理和标准化。基于波动率、成交金额、成交笔数和买卖单数生成的特征,通常具有较为明显的偏度。因此,分布调整是特征处理的第一步。特征中的极值也会影响模型的训练效果,因此,我们采用和常规的因子极值处理类似的方法,即,N 倍标准差截断。和低频数据类似,高频数据同样量纲差异巨大。因此,为减轻这个问题对模型训练带来的影响,标准化也是很有必要的。

  深度学习高频因子的特征归因。常见的特征归因模型大致有基于梯度(Gradient)和基于扰动(Perturbation)两类。其中,基于梯度的归因方法又称作反向传播归因法,基于扰动的归因方法又称作前向传播归因法。本文选用积分梯度法进行特征归因,因为该方法具备完整性(Completeness)。即,所有特征归因后的贡献度之和为模型输出与基线输出之间的差值。通过积分梯度法归因,我们亦可得到每一个特征的绝对贡献度,进而比较它们对预测结果的重要性。

  深度学习高频因子的特征筛选。当特征数量从 176 精简至 128 或 64 后,在任何一种处理方式下,因子的 IC 均未出现下降,而年化多头超额收益则进一步提升。但是,如果特征数量进一步降至 32,反而有可能造成 IC 或多头超额收益的下降。因此,我们认为,和线性模型类似,深度学习模型的特征筛选同样是有必要且有益的。它可以剔除冗余信息、缩短训练时间、优化计算资源,并较为显著地提升模型表现。然而,过度精简特征也会损失有效信息,降低训练所得因子的选股能力,故我们需要在模型的简约和效果之间取得平衡。

  深度学习高频因子在指数增强组合中的应用与对比。将深度学习高频因子引入中证 500 和中证 1000 增强策略,我们通过测试发现,首先,同样是 176 特征集合,偏度调整和去极值均能大概率提升年化超额收益;其次,一定程度的特征筛选(64或 128 特征集合),也在绝大多数情况下,获得了优于原始集合的表现;第三,过度的特征筛选,如仅保留 32 个特征,则有可能损失重要信息,产生负面效应。最后,单一截面和跨截面两种标准化方式的差异较小。

  风险提示。市场系统性风险、资产流动性风险、政策变动风险、因子失效风险。

免责声明:中金网发布此信息目的在于传播更多信息,与本网站立场无关。中金网不保证该信息的准确性、真实性、完整性、有效性等。相关信息并未经过本网站证实,不构成任何投资建议,据此操作,风险自担。