【国君金工】高频量价策略不等于躺着赚钱
(以下内容从国泰君安《【国君金工】高频量价策略不等于躺着赚钱》研报附件原文摘录)
点击上方“Allin君行” ,关注我们 陈奥林 从业证书编号 S0880516100001 刘昺轶 从业证书编号 S0880520050001 摘要 我们挑选了10家量化私募,其指增产品超额收益自2021年起相关性中位数高达0.6,远高于公募量化指增超额相关性中位数,后者仅为0.4,说明量化私募模型存在高度同质化的可能。 我们采用机器学习的方法,分别使用三组完全不同的机器挖掘特征组,预测不同尺度下的股票收益,并针对不同股票池构建多空组合。发现各组合在样本外的表现呈现高度相似性,扣费后的回撤期与量化指增产品的超额回撤期类似,这进一步增加了量价模型存在高度同质化的可能性。 最后我们对量价模型的样本外组合进行分析,发现其在中信一级行业是未获取显著超额收益,在风格上的暴露也大都呈现周期性。除此之外,我们发现有两点值得注意:1. 量价模型长期在流动性因子上保持负向敞口,且在2021年8月达到极值,随后呈现周期性走势,恰恰对应了量价模型扣费后的回撤期。2. 市值因子和动量因子的暴露情况十分接近,且均维持较大的正向暴露。 经过分析我们认为市值敞口与流动性敞口的差值若处于高位,此时量价模型倾向于持有流动性差的大市值股票,存在微观交易结构恶化的可能性,模型也将会迎来超额回撤阶段。 风险提示:本结论基于历史统计与量化模型,存在历史规律与量化模型失效的风险。 01 引言 回顾近两年的市场,头部私募量化指增产品历经2021年9月开始的超额回撤,直至2022年2月底企稳反弹,平均回撤将近10%。这不禁让我们联想到2021年初的蓝筹白马抱团瓦解,2022年初的新能源股崩溃,两者的原因均为赛道股过于拥挤导致筹码结构恶化,最终只能通过大幅回撤消化前期的过热行情。 众所周知,头部私募量化指增产品多为多因子模型,其中量价因子占主导比例,既然蓝筹白马、新能源股能成为一种市场风格,那么通过大量量价因子构建的交易曲线又何尝不能成为一种市场风格呢? 本文的主要工作分为三点: 量价模型是否存在同质化问题? 如何构建一个量价模型? 量价模型的收益来源及风险点。 通过以上工作,不仅可能帮助我们增强收益,也能更好地理解市场风险,及量价模型的适用环境。 02 量价模型是否存在同质化问题? 谈到风格,大部分投资者脑中的概念无非是成长或者价值,或者说某些赛道板块。更进一步,在量化选股领域里特指,有长期收益,但波动较大的因子,如动量、盈利、波动、流动性或市值等。但归根结底,我们认为风格实际上指投资者倾向于趋同交易所参考的特征。简单来说,如果投资者总喜欢按照某一个概念或指标对一篮子股票进行交易,那么这个概念或指标可被称为风格。 我们在2020年9月对当时的蓝筹白马行情进行了风格分析,惊人的发现,当时的基金超额收益与所谓的价值,盈利,质量等因子收益并不呈现高相关性,而是与长期动量因子收益呈现极高的相关性。长期时序相关性为0.42,2017年至2021年相关性高达0.7,事后证明这的确是由资金主导的趋同交易导致的市场现象。 同样的,如果量价因子主导的量化私募存在趋同交易,其必定在净值上存在较高的相关性。我们在下图中列举了10家量化私募的中证500指增产品相对于中证500指数的超额收益相关性矩阵图,统计时间范围为2021年1月至2022年7月,其中相关性中位数为0.60。 下图为其超额累计收益情况,可以发现走势的确高度趋同。 为了作对比,我们也统计了公募量化指增超额相关性的情况。我们选取了10家规模靠前的公募中证500指增产品进行统计,其超额收益时序相关性图如下图所示,其相关性中位数仅为 0.4。 再逐一对照公募对私募指增超额的相关性,发现平均呈现0.3左右的情况,说明公募指增整体模型并不趋同且与私募相关性较低。 容易得知的是,公募量化由于交易及换手率的限制,必然不能大规模采用量价因子构建组合,而是倾向于采用更多的基本面因子,所以其超额相关性与私募量化较低。而私募整体相关性较高,说明其必然采用类似的选股架构,所以会导致一定程度上的趋同交易,在超额收益上体现为较大的波动性和周期性,历经半年的回撤期后,10家私募中仅有3家的超额收益创出新高。 可以预见的是,随着私募量化指增的规模趋稳回升,大部分量价因子主导的选股模型必然呈现类风格的表现,而非稳定alpha,即量价风格开始存在,且会长期存在,投资者应放低预期,将其当作风格指数进行配置。 03 如何构建一个量价模型? 通过公开信息以及我们自身的研究经验,我们可以将现存量化选股模型总结如下。分别为使用线性加权的传统模型,使用非线性模型进行收益预测的机器学习模型,以及直接端到端的深度神经网络模型。这三个框架大体上都是遵循Data Mining,Feature Selection,Prediction 的技术路线,区别还是在于使用的技术不同。 限于硬件水平和技术实力,本文不适用端到端的预测模型。为了避免任何可能的未来数据导致的前视偏差,亦不使用任何人工因子,只使用样本内的数据进行机器挖掘生成量价类因子。 我们使用遗传规划算法生成量价类因子,由于之前已经写过类似报告,故重复内容不再赘述,这里主要介绍部分细节及相关优化算法。 遗传规划算法的本质是更为高效的暴力符号搜索,所以一切算法的优化都需注重于提升挖掘速度,目的是在尽可能短的时间内找到合适数量的特征去充分表达样本空间。这里我们一共使用三个优化算法去加速特征挖掘的速度。 Beam Search 2. PCA-Similarity 3. Family Competition。 我们在特征挖掘的过程中使用了Filter技术,除此之外,为了避免前视误差,不进行任何人工筛选,只使用集成模型进行自动筛选。 上图分别为3个特征组(数量为125,125,128)各自的全时序相关性分布情况,由于挖掘时设置的相关性阈值较宽,因子数量较少,并未呈现稳定的分布状态,但这可为后续预测环节的鲁棒性提供对比验证。 传统线性框架中对多因子的合成往往采用线性加权,如等权,因子收益加权,ICIR加权等,优势为一定的可解释性,可以清晰的将股票收益进行分解。随着技术发展,不少对冲基金均采用机器学习的方法对因子进行合成,通过对历史数据的训练,希望能挖掘到更多的因子潜力。 我们采用Kaggle比赛常用的集成模型对三个特征组合分别进行合成,并预测不同周期下的股票收益,基模型为随机森林,GBDT以及神经网络。采用多个基模型的好处是和而不同,减小样本外的过拟合风险,从而变相增强样本外的预测能力。 下图展示了扣费后的多空收益。由于我们以全天vwap价格交易,所以暂时不考虑滑点,双边手续费以1.2‰计。 可以发现在ZZ800+ZZ1000的股票池中,样本外预测在扣费后依然有不错的绩效,且T+1高频换手的绩效优于T+3及T+5,这符合我们对量价模型的认知。 然而沪深300的股票池中,样本外预测在扣费后甚至产生了明显的负向收益,与上一节中扣费前的表现截然相反,说明此模型在样本外的预测能力无法覆盖高度换手带来的手续费损耗。与此同时,我们也发现,在沪深300成分股中,更长周期的预测尺度是优于短周期尺度的,这一点无论在费前还是费后都是如此,说明沪深300股票池中有更强的动量效应,这一点和我们之前的研究成果也是契合的。 04 量价模型的收益来源及风险点 行业收益 我们使用个股所属中信一级行业代替其本身重新计算样本外收益,可以发现,不同频度下,不同特征组的量价模型均无法获取持续、稳定且显著的行业收益,并呈现类似的周期性。 风格暴露 基于风格暴露分析,我们发现有两点值得注意: 1. 量价模型长期在流动性因子上保持负向敞口,且在2021年8月达到极值,随后呈现周期性走势,恰恰对应了量价模型扣费后的回撤期。 2. 市值因子和动量因子的暴露情况十分接近,且均维持较大的正向暴露。 由于我们的模型完全使用2021年初之前的数据进行训练,参考过去的行情,对应的恰好是机构化程度提升的阶段,市值和动量走强的阶段。量价模型在这两个因子上进行正向暴露时完全可以理解的。 其次如果我们将市值暴露和流动性暴露做差,可以发现另一个现象,其拐点恰恰对应本报告中量价模型收益表现得拐点。这一差值我们可以理解为持有低流动性的大市值股票。由微观交易理论可知,趋势行情的末端往往会呈现一个状态,即筹码集中在最乐观的人手中。若组合市值与流动性的差值较大,说明其持有个股已难以找到对手盘,且该股估值可能偏高,后续会有陷入流动性危机的危险。 05 总结 本报告通过分析量化私募指增产品的超额收益走势,发现的确存在模型高度同质化的可能,这也意味着随着产品扩容,量价因子可能变为一种风格因子。 基于以上假设,我们采用机器学习的方法,分别使用三组完全不同的机器挖掘特征组,预测不同尺度下的股票收益,并针对不同股票池构建多空组合。发现各组合在样本外的表现呈现高度相似性,扣费后的回撤期与量化指增产品的超额回撤期类似,这进一步增加了量价模型存在高度同质化的可能性。 最后我们对量价模型的样本外组合进行分析,发现其在中信一级行业是未获取显著超额收益,在风格上的暴露也大都呈现周期性。 除此之外,我们发现有两点值得注意: 1. 量价模型长期在流动性因子上保持负向敞口,且在2021年8月达到极值,随后呈现周期性走势,恰恰对应了量价模型扣费后的回撤期。 2. 市值因子和动量因子的暴露情况十分接近,且均维持较大的正向暴露。经过分析我们认为市值敞口与流动性敞口的差值若处于高位,此时量价模型倾向于持有流动性差的大市值股票,存在微观交易结构恶化的可能性,模型也将会迎来超额回撤阶段。 06 风险提示 本结论基于历史统计与量化模型,存在历史规律与量化模型失效的风险。 详细报告请查看20220729发布的国泰君安金融工程专题报告《高频量价策略不等于躺着赚钱》 法律声明: 本订阅号不是国泰君安证券研究报告发布平台。本订阅号所载内容均来自于国泰君安证券研究所已正式发布的研究报告,如需了解详细的证券研究信息,请具体参见国泰君安证券研究所发布的完整报告。本订阅号推送的信息仅限完整报告发布当日有效,发布日后推送的信息受限于相关因素的更新而不再准确或者失效的,本订阅号不承担更新推送信息或另行通知义务,后续更新信息以国泰君安证券研究所正式发布的研究报告为准。 根据《证券期货投资者适当性管理办法》,本订阅号所载内容仅面向国泰君安证券客户中的专业投资者。因本资料暂时无法设置访问限制,若您并非国泰君安证券客户中的专业投资者,为控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。如有不便,敬请谅解。 市场有风险,投资需谨慎。在任何情况下,本订阅号中信息或所表述的意见均不构成对任何人的投资建议。在决定投资前,如有需要,投资者务必向专业人士咨询并谨慎决策。国泰君安证券及本订阅号运营团队不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任。 本订阅号所载内容版权仅为国泰君安证券所有。订阅人对本订阅号发布的所有内容(包括文字、影像等)进行复制、转载的,需明确注明出处,且不得对本订阅号所载内容进行任何有悖原意的引用、删节和修改。
点击上方“Allin君行” ,关注我们 陈奥林 从业证书编号 S0880516100001 刘昺轶 从业证书编号 S0880520050001 摘要 我们挑选了10家量化私募,其指增产品超额收益自2021年起相关性中位数高达0.6,远高于公募量化指增超额相关性中位数,后者仅为0.4,说明量化私募模型存在高度同质化的可能。 我们采用机器学习的方法,分别使用三组完全不同的机器挖掘特征组,预测不同尺度下的股票收益,并针对不同股票池构建多空组合。发现各组合在样本外的表现呈现高度相似性,扣费后的回撤期与量化指增产品的超额回撤期类似,这进一步增加了量价模型存在高度同质化的可能性。 最后我们对量价模型的样本外组合进行分析,发现其在中信一级行业是未获取显著超额收益,在风格上的暴露也大都呈现周期性。除此之外,我们发现有两点值得注意:1. 量价模型长期在流动性因子上保持负向敞口,且在2021年8月达到极值,随后呈现周期性走势,恰恰对应了量价模型扣费后的回撤期。2. 市值因子和动量因子的暴露情况十分接近,且均维持较大的正向暴露。 经过分析我们认为市值敞口与流动性敞口的差值若处于高位,此时量价模型倾向于持有流动性差的大市值股票,存在微观交易结构恶化的可能性,模型也将会迎来超额回撤阶段。 风险提示:本结论基于历史统计与量化模型,存在历史规律与量化模型失效的风险。 01 引言 回顾近两年的市场,头部私募量化指增产品历经2021年9月开始的超额回撤,直至2022年2月底企稳反弹,平均回撤将近10%。这不禁让我们联想到2021年初的蓝筹白马抱团瓦解,2022年初的新能源股崩溃,两者的原因均为赛道股过于拥挤导致筹码结构恶化,最终只能通过大幅回撤消化前期的过热行情。 众所周知,头部私募量化指增产品多为多因子模型,其中量价因子占主导比例,既然蓝筹白马、新能源股能成为一种市场风格,那么通过大量量价因子构建的交易曲线又何尝不能成为一种市场风格呢? 本文的主要工作分为三点: 量价模型是否存在同质化问题? 如何构建一个量价模型? 量价模型的收益来源及风险点。 通过以上工作,不仅可能帮助我们增强收益,也能更好地理解市场风险,及量价模型的适用环境。 02 量价模型是否存在同质化问题? 谈到风格,大部分投资者脑中的概念无非是成长或者价值,或者说某些赛道板块。更进一步,在量化选股领域里特指,有长期收益,但波动较大的因子,如动量、盈利、波动、流动性或市值等。但归根结底,我们认为风格实际上指投资者倾向于趋同交易所参考的特征。简单来说,如果投资者总喜欢按照某一个概念或指标对一篮子股票进行交易,那么这个概念或指标可被称为风格。 我们在2020年9月对当时的蓝筹白马行情进行了风格分析,惊人的发现,当时的基金超额收益与所谓的价值,盈利,质量等因子收益并不呈现高相关性,而是与长期动量因子收益呈现极高的相关性。长期时序相关性为0.42,2017年至2021年相关性高达0.7,事后证明这的确是由资金主导的趋同交易导致的市场现象。 同样的,如果量价因子主导的量化私募存在趋同交易,其必定在净值上存在较高的相关性。我们在下图中列举了10家量化私募的中证500指增产品相对于中证500指数的超额收益相关性矩阵图,统计时间范围为2021年1月至2022年7月,其中相关性中位数为0.60。 下图为其超额累计收益情况,可以发现走势的确高度趋同。 为了作对比,我们也统计了公募量化指增超额相关性的情况。我们选取了10家规模靠前的公募中证500指增产品进行统计,其超额收益时序相关性图如下图所示,其相关性中位数仅为 0.4。 再逐一对照公募对私募指增超额的相关性,发现平均呈现0.3左右的情况,说明公募指增整体模型并不趋同且与私募相关性较低。 容易得知的是,公募量化由于交易及换手率的限制,必然不能大规模采用量价因子构建组合,而是倾向于采用更多的基本面因子,所以其超额相关性与私募量化较低。而私募整体相关性较高,说明其必然采用类似的选股架构,所以会导致一定程度上的趋同交易,在超额收益上体现为较大的波动性和周期性,历经半年的回撤期后,10家私募中仅有3家的超额收益创出新高。 可以预见的是,随着私募量化指增的规模趋稳回升,大部分量价因子主导的选股模型必然呈现类风格的表现,而非稳定alpha,即量价风格开始存在,且会长期存在,投资者应放低预期,将其当作风格指数进行配置。 03 如何构建一个量价模型? 通过公开信息以及我们自身的研究经验,我们可以将现存量化选股模型总结如下。分别为使用线性加权的传统模型,使用非线性模型进行收益预测的机器学习模型,以及直接端到端的深度神经网络模型。这三个框架大体上都是遵循Data Mining,Feature Selection,Prediction 的技术路线,区别还是在于使用的技术不同。 限于硬件水平和技术实力,本文不适用端到端的预测模型。为了避免任何可能的未来数据导致的前视偏差,亦不使用任何人工因子,只使用样本内的数据进行机器挖掘生成量价类因子。 我们使用遗传规划算法生成量价类因子,由于之前已经写过类似报告,故重复内容不再赘述,这里主要介绍部分细节及相关优化算法。 遗传规划算法的本质是更为高效的暴力符号搜索,所以一切算法的优化都需注重于提升挖掘速度,目的是在尽可能短的时间内找到合适数量的特征去充分表达样本空间。这里我们一共使用三个优化算法去加速特征挖掘的速度。 Beam Search 2. PCA-Similarity 3. Family Competition。 我们在特征挖掘的过程中使用了Filter技术,除此之外,为了避免前视误差,不进行任何人工筛选,只使用集成模型进行自动筛选。 上图分别为3个特征组(数量为125,125,128)各自的全时序相关性分布情况,由于挖掘时设置的相关性阈值较宽,因子数量较少,并未呈现稳定的分布状态,但这可为后续预测环节的鲁棒性提供对比验证。 传统线性框架中对多因子的合成往往采用线性加权,如等权,因子收益加权,ICIR加权等,优势为一定的可解释性,可以清晰的将股票收益进行分解。随着技术发展,不少对冲基金均采用机器学习的方法对因子进行合成,通过对历史数据的训练,希望能挖掘到更多的因子潜力。 我们采用Kaggle比赛常用的集成模型对三个特征组合分别进行合成,并预测不同周期下的股票收益,基模型为随机森林,GBDT以及神经网络。采用多个基模型的好处是和而不同,减小样本外的过拟合风险,从而变相增强样本外的预测能力。 下图展示了扣费后的多空收益。由于我们以全天vwap价格交易,所以暂时不考虑滑点,双边手续费以1.2‰计。 可以发现在ZZ800+ZZ1000的股票池中,样本外预测在扣费后依然有不错的绩效,且T+1高频换手的绩效优于T+3及T+5,这符合我们对量价模型的认知。 然而沪深300的股票池中,样本外预测在扣费后甚至产生了明显的负向收益,与上一节中扣费前的表现截然相反,说明此模型在样本外的预测能力无法覆盖高度换手带来的手续费损耗。与此同时,我们也发现,在沪深300成分股中,更长周期的预测尺度是优于短周期尺度的,这一点无论在费前还是费后都是如此,说明沪深300股票池中有更强的动量效应,这一点和我们之前的研究成果也是契合的。 04 量价模型的收益来源及风险点 行业收益 我们使用个股所属中信一级行业代替其本身重新计算样本外收益,可以发现,不同频度下,不同特征组的量价模型均无法获取持续、稳定且显著的行业收益,并呈现类似的周期性。 风格暴露 基于风格暴露分析,我们发现有两点值得注意: 1. 量价模型长期在流动性因子上保持负向敞口,且在2021年8月达到极值,随后呈现周期性走势,恰恰对应了量价模型扣费后的回撤期。 2. 市值因子和动量因子的暴露情况十分接近,且均维持较大的正向暴露。 由于我们的模型完全使用2021年初之前的数据进行训练,参考过去的行情,对应的恰好是机构化程度提升的阶段,市值和动量走强的阶段。量价模型在这两个因子上进行正向暴露时完全可以理解的。 其次如果我们将市值暴露和流动性暴露做差,可以发现另一个现象,其拐点恰恰对应本报告中量价模型收益表现得拐点。这一差值我们可以理解为持有低流动性的大市值股票。由微观交易理论可知,趋势行情的末端往往会呈现一个状态,即筹码集中在最乐观的人手中。若组合市值与流动性的差值较大,说明其持有个股已难以找到对手盘,且该股估值可能偏高,后续会有陷入流动性危机的危险。 05 总结 本报告通过分析量化私募指增产品的超额收益走势,发现的确存在模型高度同质化的可能,这也意味着随着产品扩容,量价因子可能变为一种风格因子。 基于以上假设,我们采用机器学习的方法,分别使用三组完全不同的机器挖掘特征组,预测不同尺度下的股票收益,并针对不同股票池构建多空组合。发现各组合在样本外的表现呈现高度相似性,扣费后的回撤期与量化指增产品的超额回撤期类似,这进一步增加了量价模型存在高度同质化的可能性。 最后我们对量价模型的样本外组合进行分析,发现其在中信一级行业是未获取显著超额收益,在风格上的暴露也大都呈现周期性。 除此之外,我们发现有两点值得注意: 1. 量价模型长期在流动性因子上保持负向敞口,且在2021年8月达到极值,随后呈现周期性走势,恰恰对应了量价模型扣费后的回撤期。 2. 市值因子和动量因子的暴露情况十分接近,且均维持较大的正向暴露。经过分析我们认为市值敞口与流动性敞口的差值若处于高位,此时量价模型倾向于持有流动性差的大市值股票,存在微观交易结构恶化的可能性,模型也将会迎来超额回撤阶段。 06 风险提示 本结论基于历史统计与量化模型,存在历史规律与量化模型失效的风险。 详细报告请查看20220729发布的国泰君安金融工程专题报告《高频量价策略不等于躺着赚钱》 法律声明: 本订阅号不是国泰君安证券研究报告发布平台。本订阅号所载内容均来自于国泰君安证券研究所已正式发布的研究报告,如需了解详细的证券研究信息,请具体参见国泰君安证券研究所发布的完整报告。本订阅号推送的信息仅限完整报告发布当日有效,发布日后推送的信息受限于相关因素的更新而不再准确或者失效的,本订阅号不承担更新推送信息或另行通知义务,后续更新信息以国泰君安证券研究所正式发布的研究报告为准。 根据《证券期货投资者适当性管理办法》,本订阅号所载内容仅面向国泰君安证券客户中的专业投资者。因本资料暂时无法设置访问限制,若您并非国泰君安证券客户中的专业投资者,为控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。如有不便,敬请谅解。 市场有风险,投资需谨慎。在任何情况下,本订阅号中信息或所表述的意见均不构成对任何人的投资建议。在决定投资前,如有需要,投资者务必向专业人士咨询并谨慎决策。国泰君安证券及本订阅号运营团队不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任。 本订阅号所载内容版权仅为国泰君安证券所有。订阅人对本订阅号发布的所有内容(包括文字、影像等)进行复制、转载的,需明确注明出处,且不得对本订阅号所载内容进行任何有悖原意的引用、删节和修改。
大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)
郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。