欢迎访问悟空智库——专业行业公司研究报告文档大数据平台!

东方证券-因子选股系列研究之八十六:研报文本情感倾向因子-221206

上传日期:2022-12-06 22:58:00 / 研报作者:王星星 / 分享者:1008888
研报附件
东方证券-因子选股系列研究之八十六:研报文本情感倾向因子-221206.pdf
大小:1918K
立即下载 在线阅读

东方证券-因子选股系列研究之八十六:研报文本情感倾向因子-221206

东方证券-因子选股系列研究之八十六:研报文本情感倾向因子-221206
文本预览:

《东方证券-因子选股系列研究之八十六:研报文本情感倾向因子-221206(27页).pdf》由会员分享,可在线阅读,更多相关《东方证券-因子选股系列研究之八十六:研报文本情感倾向因子-221206(27页).pdf(27页精品完整版)》请在悟空智库报告文库上搜索。

  研究结论
  分析师研报数据是相对独立的信息源,本报告基于朝阳永续的研报标题和摘要文本、盈利预测,用多种NLP模型提取文本特征,判断研报的情感倾向。
  文本的处理有多种多样的方式,文本特征具有稀疏的特性,本文通过正则匹配、同义映射、词向量映射三种方法对文本特征进行降维,在同样的特征维度中可以囊括更多的信息,提升因子表现的同时,增加了模型的可解释性。对降维后的特征用XGB和RNN模型对研报盈利预测调整幅度进行回归训练。
  本文用多种处理方法和模型构建了如下5个因子:
  1.词频因子RPTF:统计训练窗口内的高频词,形成log词频矩阵,用XGB进行回归预测,全样本Rank IC 3.4%,ICIR 1.3,年化收益率20%。缺点是单词特征并不能体现出情感倾向,如果“利润”“成本”“增加”三个词同时出现的话,逻辑上模型并不能知道是利润在增加还是成本在增加,于是衍生出RPRF因子。
  2.正则表达式因子RPRF:人工提取研报中常见、并且具有情感倾向的表达,类似于((产能)。(规模)。(如期)).((达产)。(投放)),形成regex的One-Hot矩阵,用XGB进行回归预测,全样本Rank IC 3.5%,ICIR 1.7,年化收益率19%。缺点是人工提取regex费时费力且不全面,需要不断更新表达式以适应新的表达,于是衍生出RPBF因子。
  3.同义映射词组因子RPBF:将分词用同义词进行映射降维,相邻两词组成一个词组,统计高频词组,形成词组频矩阵,用XGB进行回归预测,全样本Rank IC3.5%,ICIR 1.5,年化收益率19%。缺点是只包括了文本的离散特征而遗漏了文本的时序特征,于是衍生出RPNN因子。
  4.循环神经网络因子RPNN:将分词序列用词向量进行映射,形成词向量序列,用单层GRU进行训练预测,全样本Rank IC 3.0%,ICIR 1.2,年化收益率16%。缺点是比较消耗算力,只能对标题进行训练,且模型比较黑箱。
  5.合成因子RPST:由前面四个因子等权合成,全样本Rank IC 3.8%,ICIR 1.4,年化收益率20%,中性化之后全样本Rank IC 3.9%,ICIR 2.4,年化收益率19%,各项回测指标都超过WFR,符合预期。
  本文分开使用标题文本和摘要文本提取体征,因为经过测试发现摘要文本中蕴含着大量增量信息,在RPTF模型中摘要信息的加入能够提升一倍的多头年化收益率,从5%提升到11%。
  前四个因子使用相同的文本数据和训练标签,但是彼此之间的因子相关性在0.57-0.67,相关性并不算高,说明对于文本的不同特征抓取方式其实包含了不同的信息。将训练标签——盈利调整,按照同样的方式构建成因子,可以发现四因子和盈利调整均值的相关性在0.42-0.55,说明模型从文本中学习到了额外的信息。
  RPST在各个样本空间进行行业市值中性化之后,选股能力RankIC在中证1000中提升到了4.5%,而在沪深300中下降到了2.4%,这种现象在WFR因子中也同样存在,而在全样本中,中性化之后ICIR和Sharpe都有明显提升,MaxDD在各样本空间都显著下降,说明选股能力和盈利能力在剔除了行业市值的影响之后都变得更加稳定。
  风险提示量化模型失效风险;市场极端环境冲击

展开>> 收起<<

#免责声明#

本站页面所示及下载的一切研究报告、文档和内容信息皆为本站用户上传分享,仅限用于个人学习、收藏和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。如若内容侵犯了您的权利,请参见底部免责申明联系我们及时删除处理。