上市公司所在地表温度变化能否带来超额收益?——因子新视野研究系列之三
(以下内容从申万宏源《上市公司所在地表温度变化能否带来超额收益?——因子新视野研究系列之三》研报附件原文摘录)
1. 引言:另类数据扮演的角色 1.1 基本面量化在国内外的应用 什么是另类数据?另类数据是金融实践者和模型构建者较少使用的一类数据,通常来自于个人(例如社媒推文)、商业活动(例如电商、信用卡交易数据)和传感器(例如卫星遥感技术、雷达等)。举个例子,消费行业的投资经理会关注识别特定商店的销售数据,无论这些数据是来自于线下商场的人流统计、电商平台的交易记录、还是发票开具平台;而高频量化交易员则会关注所有可在盘中产生的基本信号,如微博、新闻发布,对数据时效性要求更高。虽然这类数据来源不同,用途不同,但他们都具有一个共同的特点:这一类数据很少被集中清洗和整合,因此在数据获取和使用上具有一定的难度。 从海外机构对另类数据使用的实践来看,由于此类数据适用的股票、行业及场景有一定的限制,其使用更像是基本面量化的应用。在数据完整性及时效性的前提下,管理人通常将另类数据作为财报因子的补充和替代加入到选股策略中去。在大数据时代,我国对于另类数据选股的研究已有不少的积累,文本分析技术、电商平台数据等都是被广泛使用并用于投资指导的工具。但是,不是所有的另类数据所反映的信息与公司业绩或股价表现都有直接的关联,因此市面上少有直接采用单一另类因子的策略产品,另类数据通常是被作为辅证主观判断的工具来使用。 1.1.1贝莱德 另类数据因子在海外的研究和运用相对更为成熟。我们在专题报告《头部公募量化的进化和整合之路——申万宏源金工海外量化研究系列之一》这篇报告中曾经介绍过贝莱德作为量化投资的先驱,在其量化投资团队中配备了股票、债券、另类、多资产的投研人员、数据科学家和学者,团队主要使用数据和技术来提供投资回报、开发创新产品。 贝莱德量化投资团队中负责主动量化股票部分的团队在研究和策略覆盖面非常广泛,除了传统的因子投资方法论,团队近年来也在积极探索大数据、另类数据的开发和使用。 团队利用大数据构建投资组合的流程如下: 1) 信号开发:团队从广泛的数据集中开发“信号”,发现被忽视、被市场误读、可能用于投资的特征而非传统的基本面信息; 2) 数据清理和测试:确保使用的数据是正确的、具备相应特征的公司是可找到的; 3) 自动化:进行自动化数据分析和选股,确保投资过程的纪律性和可重复性; 4) 监控:团队监控数据和股票选择,以确保信号、数据持续有效,同时讨论未来可行的研究方向。 代表性的另类数据使用案例如下: 在另类数据探索中,团队仍然从扎实的经济学理论出发,例如希望找到营收增长的公司,但在如何找到相应的公司这一步上,团队用大数据对传统财报数据进行了替代,并在后续通过进一步的测试验证确保有效性。在理论的支撑下,高频、另类数据也被赋予了充分的投资逻辑,使得其alpha策略既区别于传统的因子量化,又与纯数据驱动的高频价量策略存在差异。因此,团队虽然目前有不少计算机背景的成员提供数据支持,但仍然强调研究驱动投资,团队的两位领导Raffaele Savi和Jeff Shen也分别为计算机和经济学背景,与团队强调以经济学原理为基础、用技术赋能的理念吻合。 1.2 行业景气度刻画的效果与局限性 申万金工过去针对一系列行业设计的景气框架通常由供需、宏观、上市公司财务三个维度来构成。在我们最近一篇关于刻画光伏行业景气度方法论讨论的报告《从光伏看成长与周期行业的景气度框架差异——基本面量化研究系列之一》,尝试从产业链、政策、业绩预期三个维度来衡量光伏行业景气度,具体思路如下: 在合成光伏产业链景气度的过程中,我们用到了以下数据。在后续的跟踪中,我们发现行业方面对于整体产量的公布不透明、不及时,且数据来源各异。可获得的数据大都是行业龙头上市公司滞后披露的产量数据和排产计划中披露的数据,对行业整体的覆盖不完全,忽略掉了较多的中小市值公司。因此行业景气度的构建方法和所用指标不适用于构建全市场选股或行业内选股策略。目前市场上对于选股策略的研究已经非常成熟,研究中衍生出了非常多的基本面因子。这种情况下,若想对某一行业内的所有上市公司进行横向比较,除了传统的基本面因子之外,还需要一个更加普适、客观且相对高质量的数据,而另类数据就是那个更好的选择。 1.3 卫星数据原理及应用 在1.1中我们提到,遥感数据是另类数据的三大类别之一,覆盖面较广。遥感技术提供了多维视角,有效洞察地表的变化,涵盖了热辐射、多光谱与高光谱图像、夜光数据、雷达图像及气候监测等数据。其中,多光谱与高光谱技术通过分析植被与土地利用的光谱特性,支持农业生产与城市规划的优化。夜光数据揭示经济活动的地理分布与强度,为经济发展与公共安全分析提供见解。雷达图像能在所有天气条件下监控基础设施与灾害情况,对于基础建设与应急管理至关重要。气候监测数据则为气候变化研究与能源行业的长期规划提供支持。 特别是热辐射遥感数据,其数据能直接体现地表温度的变化,上市公司尤其是制造业上市公司其所在地温度的变化与经济活动的强度紧密相关。通过热辐射数据的分析,可识别上市公司经营活动的变化,甚至预测经济趋势,为投资者评估企业提供关键工具。 此外,热辐射数据在环境监测、农业管理、灾害响应和地热资源开发等领域的应用也极为广泛。在环境监测领域,该数据有助于识别热污染源,评估城市热岛效应及监测气候变化对地表温度的影响。在农业领域,该数据指导灌溉与作物管理,优化生产流程。在灾害响应方面,可迅速评估森林火灾等自然灾害的影响。在地热资源开发方面,则有助于识别地表温度异常区域,支持地热能源的勘探与利用。 为进一步提升企业发展评估的精确性和深入性,我们计划将热辐射数据整合至公司发展情况的评估框架中,以精确监测与分析相关经济与环境指标,从而提供更为科学的决策支持。本分析报告所采用的数据来源于尔特数科公司开发的“孔明系列”热辐射数据库。该数据库包含两个主要部分:公司热辐射数据库和区域热辐射数据库,均基于卫星遥感技术收集并处理得到的数据。公司热辐射数据库专注于提供制造业上市公司及其子公司的热辐射数据,而区域热辐射数据库则覆盖了全球主要城市及中国地级市的热辐射情况。 公司热辐射数据库分为高清低频和低清高频两种类型,分别利用不同分辨率和更新频率的遥感卫星图像来反演热辐射数据,即地表热辐射。因为地表热辐射的高低变化包含了地理、季节性的因素,所以尔科提供使用的数据已经经过去除季节性、地理差异的调整,具体的调整方法是:用公司范围减去周边的缓冲区(以目标范围为中心,取5–10公里范围作为缓冲区)得到相对热辐射,再除以去年同期值得到相对热辐射同比变化。高清低频数据库使用30米分辨率的图像,更新周期为16天(自2021年11月起变更为8天),而低清高频数据库则使用约1km分辨率的图像,每天更新日间和夜间的热辐射数据。通过对接公司矢量数据,数据库包含了3361家制造业上市公司自2013年以来的热辐射数据,这些数据反映了公司的生产经营活动强度。 区域热辐射数据库则利用空间分辨率约1000米,每日更新的遥感卫星图像来反映热辐射数据。该数据库通过将短时间内可重复观测的地球表面数据与地表城市映射,构建出城市的热辐射指标。数据集涵盖了95个G20国家的主要城市以及中国336个地级市的日度、月度、季度和年度热辐射指标。 数据库中的字段丰富,包括但不限于公司股票代码、公司名称、所在省份、地址、是否为母公司、日期、年份、月份、季度、白天与夜间的平均热辐射值、行业与市场平均热辐射差值、热辐射同期变化等。这些字段不仅能够为投资决策和商业分析提供量化依据,还能够通过热辐射数据的变化趋势来预测和衡量公司的生产经营活动及区域经济情况。 需要注意的是,虽然遥感技术检测地表热辐射数据可以客观地表征企业生产经营强度,但数据质量仍然可能存在一定的干扰因素,比如云量和企业对温控的要求等等,导致观测值存在偏差或缺失的情况。 1.4 卫星数据适用于哪些行业 遥感数据对于不同区域热辐射的监测手段本身是没有差异性的,较为客观。因此在掌握遥感技术原理的基础之上,我们认为不同行业及其下属公司在工业生产模式、办公经营模式、建筑类型上的差异往往会造成热辐射数据在不同行业生产经营活动表征效果上的差距。因此根据我国的商用建筑类型来看,热辐射数据比较适用于有固定且独立的生产基地、能源消耗相对较高的行业公司。 另一方面,热辐射数据衡量的公司生产经营活动实际是公司供给端的实时体现,若采用此数据对上市公司业绩进行预测,我们认为热辐射数据更适合那些业绩受供给比受需求影响更大的公司。 例如资源开采、基建、科技行业等,地缘政治、政策因素、季节因素等费需求端的因素可能对产量产生显著影响,而这类行业的产成品面对的市场需求相对较为稳定。通过监测地表热辐射数据,可以及时发现生产活动变化,预示其对于公司业绩可能产生的影响,为投资者提供重要参考。 1.5 卫星数据的优势 相较于传统的产量相关指标,卫星数据在投资决策应用方面具有一系列明显优势:(1)时效性:卫星数据能够实时捕捉地表生产活动变化,反映企业最新的产量情况,而传统产量指标往往受制于报告周期和数据获取的滞后性,需要经过一段时间的数据收集和处理。基于卫星数据的实时性,投资者可以更快速地响应市场变化,更及时地调整投资策略,降低信息滞后带来的风险;(2)全面性:卫星数据覆盖范围广泛,可以涵盖较大范围的地理区域,同时可以深入到个股公司层面进行监测,使得对企业生产活动的评估更加全面和详尽,有助于投资者进行更具针对性的选股策略;(3)精准性:卫星数据基于高分辨率影像和先进的数据处理技术,能够提供更为准确的产量信息,避免了传统指标可能存在的统计误差和抽样偏差。 总体而言,卫星数据以其高度的时效性、精确性以及对个股公司层面的详尽覆盖,为企业维度的产量评估提供了更为全面的度量。通过深入了解各个公司的生产状况,投资者可以更准确地把握行业内的优势企业和潜在风险,从而在投资决策中赢得更大的优势。因此,结合卫星数据进行行业内选股策略的探索,能够拓宽投资者的研究思路,提供更为可靠和及时的市场洞察。 2. 热辐射数据的因子化处理和有效性检验 2.1 热辐射数据覆盖度统计 我们可得的上市公司热辐射数据所覆盖的时间范围为2019-2023年,涵盖的上市公司共3222家。高清低频样本包含3220家上市公司;低清高频样本共3222家上市公司。 对3222家上市公司所属的申万一级行业进行统计,可以看到热辐射数据覆盖到的上市公司数量主要集中在机械设备、医药生物、基础化工、电子、电力设备与汽车行业,而公用事业、社会服务、传媒、商贸零售、非银金融、房地产、交通运输等行业上市公司数量较少;从大类行业分类来看,属于先进制造与周期类的上市公司数量较多,而金融地产类上市公司数量最少。 除了对另类数据覆盖的上市公司在行业层面进行分类之外,我们也对另类数据在沪深300、中证500、中证1000等主流的市场宽基指数成分股的覆盖程度进行了统计,结果如下,对主要宽基指数都有50%以上的覆盖率,由于行业特征,制造业更多的中证1000指数覆盖度高于沪深300: 2.2 另类数据因子化 检验热辐射数据有效性之前,我们首先对另类数据的原始数据表进行数据治理,我们将在同一时间截面上属于同一股票代码的不同工厂和办公楼区域的同类热辐射数据进行加总,获得能代表某一上市公司热辐射总值。另外根据“是否为母公司”这一指标,可以将时间截面上某一上市公司的热辐射总值分为仅包含母公司的热辐射总值和不区分母公司的热辐射总值。 进一步,我们对热辐射数据指标进行因子化处理,用于后续检验另类数据指标与股价收益率、财务指标之间的相关性。具体构建方法如下表所示: 从逻辑上来看,公司热辐射同比或环比增速越大,代表公司生产经营活动有所增加;公司热辐射与行业/市场均值的比值越高,代表公司生产经营活动相对于行业或市场整体的水平在增加。 除了热辐射数据之外,我们还需要3222家上市公司的股价和财务指标。本报告所用财务数据来源为WIND底库中的中国A股利润表,对报表类型进行了筛选,仅选取合并报表(单季度)。从WIND获取的A股利润表中提取共计8个财务指标:营业总收入、营业收入、营业利润、利润总额、净利润(含少数股东损益)、EBIT、息税折旧摊销前利润、扣除非经常性损益后净利润(扣除少数股东损益)。 2.3 热辐射因子与股价收益率、财务指标的相关性检验 我们分别对低清高频、高清低频的月度与季度数据进行了测试,通过单变量线性回归的方法,测试所有因子与股价收益率以及财务指标之间的相关性。对于月度数据,测试各因子与滞后1期月度收益率之间线性相关的显著性;对于季度数据,分别测试各因子与滞后1期季度收益率、滞后1期财务指标之间线性相关的显著性。测试的时间窗口为2018-2022年。 下表在此展示了低清高频数据下部分较为显著的测试结果,高清低频数据下的结果与低清高频相似。整体而言,TIRRaw(公司区域平均热辐射)同比与环比变化率因子、TIR_IndTIR(公司区域平均热辐射与行业平均热辐射的比值)以及TIR_MktTIR(公司区域平均热辐射与市场平均热辐射的比值)因子与营业收入指标间的线性相关性较强,与股价收益率间的线性相关性相对较弱。 基于单变量线性回归结果,我们发现热辐射指标具有与收益率线性相关性低、与营业收入线性相关性高的特点。说明上市公司所在地温度的变化对营收有一定的预测性,但对股价的变化缺乏预测性,该数据并不能直接用来预测股价表现。 由于不同行业具有不同生产经营特征,另类数据与企业股价收益率及财务指标间的相关性特征也会有所不同。基于以上全市场回归结果,我们从中筛选出回归结果较好的参数组合,进行分行业回归,以探究热辐射数据对股价收益率及营业收入的预测效果在不同行业间的差异。 可以看到另类数据因子与营业收入指标间的线性相关特征在行业上存在较为明显的分化,商贸零售、建筑装饰、传媒、石油石化等行业的相关特征较为显著,而公用事业、社会服务、煤炭三个行业的回归结果不显著主要与数据集内样本数量较少有关。从大类行业来看,另类数据与营业收入强相关的特征主要集中在消费、周期、先进制造以及科技(TMT)类行业。 2.4 热辐射因子与营收增速的关系是否具有单调性 如果使用热辐射因子直接进行全市场选股,我们首先想要验证的是,热辐射因子值排序越靠前的股票,是否其热辐射数值与营收增速之间的相关性越高?同时,因子值排序越靠前的股票,其营收增速是否也能排序更靠前? 我们选择2.3表8里列举的一项热辐射季频因子:DayTIR_IndDayTIR(不区分headquarter), 指标背后体现的是各上市公司工厂、办公楼的白天热辐射与行业白天热辐射的比值。从2018年一季度开始到2023年三季度,我们在每个时间截面上,根据热辐射因子大小对有数值的股票进行排序并依次分成5组数量相等的股票(group1, group2, …, group5),分别计算每组股票因子与营业收入同比之间的相关系数。从下图可以看到,五组股票的热辐射因子在不同时间截面上与营收增速指标的相关性并不具有显著的规律。 如果去看DayTIR_IndDayTIR(不区分headquarter)在每一期的增长幅度,那么我们进一步计算DayTIR_IndDayTIR(不区分headquarter)的环比增长情况,采用与上一步同样的方法,观察在不同时间截面上五组股票因子值与营收增速之间的相关性差异。如下图所示,我们可以得到一个相似的结论,即“热辐射因子值排序越靠前的股票,其热辐射数值与营收增速之间的相关性越高”这一结论并不成立。 进一步对热辐射季频因子计算Rank_IC,可以发现“因子值排序越靠前的股票,其营收增速是否也能排序更靠前”同样不成立。 2.5 营收增速与股票收益率间的相关性检验 因为热辐射数据只对上市公司营收有预测性,而营收变化对股价的预测性则成为本文用于选股的关键。我们选择在2018年之前已上市的A股,从2018年一季度到2023年三季度每个时间截面上,分别测算上市公司的营业收入同比因子和净利润同比因子与对应股票季度收益率之间的斯皮尔曼线性相关系数,并由此得到营收同比因子IC序列和净利润同比因子IC序列。 从IC测算结果上看,营收同比因子和净利润同比因子的IC值在2018年一季度到2021年三季度都相对稳定,相关系数稳定保持在0.05以上。但从2021年四季度开始,两个因子的IC都有呈现减小态势,并且相关关系显著性降低。我们可以判断,从2021年四季度开始,基本面因子的有效性有所下降,也会影响热辐射数据的使用环境——即该数据所打造的因子是一个典型的基本面因子,在基本面更能驱动股价的市场环境里会表现更好。 3. 热辐射因子在选股策略中的应用 根据第二章的分析,我们得到以下2个主要结论: 1、我们发现热辐射因子值大小不影响因子值与营收关系强弱,即因子值高不一定代表其与营收关系强; 2、基本面因子与股价收益率的关系在近两年也存在较为明显的减弱。 基于此,我们认为热辐射因子的单调性较弱,不适合作为单因子在全市场股票池中进行选股。在本章节,我们将主要利用热辐射因子分别进行单因子和多因子股票组合测算,简要思路如下: 1、通过营收同比和股价收益率之间的相关性大小排序筛选“精选股票池”,再在精选股票池中使用热辐射因子单因子选股策略; 2、热辐射因子能够较为高效、客观地刻画上市公司生产经营活动,通过热辐射因子构造具有潜在营收增长能力的基础股票池,再在营收潜在增长的基础股票池内,用多因子来进一步优选股票。 3.1精选股票池内单因子选股 3.1.1 精选股票池的构成 我们在热辐射数据覆盖的所有股票中,筛选得到股价收益率和营收具有较高相关性的成分股,在这个给定的精选池中利用热辐射因子进行单因子选股。使用2018Q1-2022Q4区间的季度数据序列,我们统计各上市公司季度股价收益率和营收增速的回归系数大小,并以此作为筛选标准,构造精选股票池。同时考虑到股票市值因素,尽可能剔除市值偏小的股票。具体步骤如下。 得到回归结果后,先按照回归系数绝对值排序,初步筛选出系数最大的前400只股票,随后在400只股票中进一步按照股票总市值排序,选取总市值最大的前200只股票构成精选股票池。精选股票池内200只股票的回归系数绝对值整体在0.6以上,R2整体在40%以上。 从申万一级行业分布来看,精选股票池内上市公司主要集中在电子、电力设备、医药生物、机械设备、汽车、基础化工等行业,先进制造、科技(TMT)与周期大类行业占比较高。钢铁、传媒、煤炭等行业在2.3节的相关性检验中表现较好,但由于在原始数据集内对应公司的样本较少,因此纳入精选股票池的公司数量不多。 从市值分布来看,截至2023/12/29,股票池内所有股票的总市值均值约为343亿元,总体而言,精选股票池偏中小市值股票。 从各行业总市值占比来看,电子行业总市值之和占比超20%,其次为汽车、医药生物、电力设备。按大类行业统计,先进制造与科技(TMT)大类的占比较高,行业分布较为均衡。 3.1.2 精选股票池单因子选股策略方法及策略表现 精选股票池内策略的选股逻辑为:对精选股票池内的成分股根据另类数据因子值在横截面上进行排序,选取排名前40只股票做多(根据精选股票池数量的20%确定),投资组合内各股票等权重配置。策略的回测区间为2018年2月-2023年12月,调仓频率与所用另类数据频率相对应。根据精选股票池内股票偏中小市值的特点,选择中证1000作为指数基准,同时以精选股票池内200只股票做等权重配置的投资组合作为业绩基准。由于测算的参数较多,本报告将对较为有效的因子以及参数对应的策略结果进行展示。 低清高频数据:月频、DayTIRRaw_MOM、母公司 下表展现的策略结果是基于低清高频数据集中母公司区域平均白天热辐射月度环比因子构建的月频选股策略结果。这个因子选择了在最近一期统计区间内白天热辐射增长最快的前20%的公司,因子背后的逻辑是最近公司区域内热辐射相对更为快速的增长代表了公司可能的生产经营活动扩张,业绩将有更多的提升。策略在2019、2020、2021三年的表现较优,相比等权重组合和基准指数都有较高的超额收益。在2018年2月-2023年12月的回测区间内策略年化收益率为15.43%,夏普比率为0.63,等权组合年化收益率为9.2%,夏普比率为0.44。 下面,我们进一步对因子进行分组测试,我们根据每一期精选股票池中的各股票的因子值进行排序,依次将股票分为5组,每组由股票池数量的20%股票构成,即每组40只,分别为Group1, Group2, …。由于热辐射数据存在残缺值的情况,因此精选股票池存在可选股票数量不满200只的情况。这种情形下,我们优先保证前几个分组40只的股票数量,因此可能存在Group4、Group5数量较少甚至为0的情况。从下图的分组测试结果来看,低清高频、月度、母公司、DayTIRRaw_MOM这个因子的单调性较好,但在近两年有一定程度的减弱。这一点与我们从表11中策略超额收益在2022年、2023年出现明显下降的结论是一致的。 高清低频数据:月频、TIRRaw_MOM、母公司 下表展现的策略结果是基于高清低频数据集中母公司区域平均热辐射月度环比因子构建的月频选股策略结果。这个因子选择了在最近一期统计区间内热辐射增长最快的前20%的公司,不再区分白天或者夜间。该因子背后的逻辑和DayTIRRaw_MOM相似,同时还包含了对于夜间热辐射变化的统计。策略表现在2019-2023年期间较为稳定地优于等权重组合表现和中证1000指数表现。在2018年2月-2023年12月的回测区间内策略年化收益率为17.5%,夏普比率为0.73,等权组合年化收益率为9.2%,夏普比率为0.44。 下面图展示了高清低频月度数据下以母公司TIRRaw_MOM为因子的分组测试结果:从下图的分组测试结果来看,高清低频、月度、母公司、TIRRaw_MOM这个因子的单调性较好,且近两年没有出现显著的衰弱。这与我们从表13中策略超额收益在2019-2023的持续性保持了一致。 在以上两组组合策略的回测结果中,我们可以观察到热辐射因子超额收益都从2022年开始衰减,这一现象与我们在2.5小节中关于基本面因子近年来失效的结论相互得到了印证。另外值得注意的是,由于月频的热辐射因子存在残缺值的概率较高,以上两组精选股票池内单因子股票组合策略的换手率均偏高,且因子分组测算结果中我们也可以看到后几组的净值曲线趋于水平。 3.1.3 热辐射因子涵盖的基本面因子是否是分析师预期之外的补充? 分析师指标反应的对公司业绩的市场预期通常基于公司调研、公告等手段获取的生产经营活动相关公开信息,而热辐射数据属于通过卫星遥感技术手段获得的与公司生产经营活动相关联的客观信息,两者在反映的事件类型上具有一定重叠。 因此,我们想看热辐射因子所提供的是否是在市场预期之外的增量信息。进一步对比3.1.2的策略表现和分析师一致预期因子选股的策略表现,观察另类数据因子的选股策略表现是否具有优越性。两个策略回测区间相同,样本股相同,信号频率相同,因子是唯一的变量。下面我们选取低清高频月度数据下的母公司DayTIRRaw_MOM因子月频策略与分析师预期营业收入同比因子月频策略表现进行对比。 结果显示,基于另类数据因子的选股策略能够战胜基于分析师预期因子的选股策略。分年度来看,另类数据因子的选股策略在2021-2023年的超额收益显著。基于上述回测结果,我们可以认为另类数据在选股策略方面,是相对于基本面信息的重要增量信息,且具有一定程度的优越性。 3.2 构建营收潜在增长的股票组合 3.2.1 基础股票池的构建 经过第2章节的统计,我们得到热辐射因子值大小与营收变化的排序没有单调性,即因子值最高的上市公司不一定代表营收增速最多,因此该另类数据无法直接因子化的结论。基于此,我们将在2018Q2-2023Q4这一时间段内季度地筛选股票池,每一期(季度)末根据当期数值筛选下一期多因子选股策略基础股票池。具体的筛选方法是:每一期末,筛选前一期因子数值排名前1000,且本期有数据的股票,再从中筛选排名靠前的700只股票构成基础股票池。通过这种方式,我们在确定入选股票池成分股热辐射季度增长为正的情况下,尽量使得股票池的成分股数量得以保证并且成分股的连贯性较高。 鉴于3.1的测算,我们发现热辐射月度数据存在较多残缺值的情况,因此可能导致选股策略的高换手率。这次我们在选择基础股票池时采用了季度数据,季度数据的低频化一定程度上规避了这种数据缺陷。同时为了降低换手率,我们特意采用上述方式筛选股票池,以保证股票池的持续性,避免过高的股票进出率。经统计,2018Q1-2023Q4期间,基础股票池的股票进出率基本保持在10%左右,基础股票池较为连续。 我们选择最近一期股票池(2023Q4)为例,对股票池的行业分布情况进行简单的统计。可以看到,股票池在行业分布上较为均衡,其中医药生物、机械设备、电子、电力设备、基础化工、汽车等行业成分股数量最多。 我们对700股票池成分股中当期营收同比增长为正的比例进行统计,结果如下图。2018Q2-2023Q3,仅2020Q1和2022Q4的比例小于50%,其他季度成分股同比增长比例均在50%,且2021年一季度有超过90%的股票营收增速为正。初步判断,我们认为DayTIR_IndDayTIR指标能够选出具有潜在营收增速的股票池。 3.2.2 多因子组合构建及测试 针对3.2.1小节筛选出的基础股票池,对选股因子在股票池内的选股效果进行测试,回测区间为2018/3/31~2023/12/31,每季度末进行组合调仓。选股因子包括成长、盈利、估值、波动性、流动性、长期动量、短期反转、市值、分析师、分红,因子具体定义可以参考附表1。 比较选股因子在基础股票池内的IC均值及分组多头超额收益的强弱表现,并且考虑到因子间的相关性(尽管选股因子做了逐步正交的处理),最后我们选取Growth、Value、Volatility、Momentum、Size、Analyst六个因子作为选股因子,因子权重采取等权的方式。 在2018/6/30-2024/3/31回测区间,每年3、6、9、12月底,基于因子打分方式对基础股票池内的股票进行打分排序,选取得分靠前的50值股票,按照等权的方式构建组合,下称“股票池优选”。在每期构建组合时,另外再增加市值因子排序前80%、剔除北交所和ST股票的限制条件。同时,我们选取沪深300、中证500、中证1000、基础股票池等权组合、全市场优选组合在同一回测区间内的净值表现作为对比。 2018/6/30-2024/3/31业绩比较区间,股票池优选组合的年化收益为20.5%,同期股票池等权组合的年化收益为6.52%,全市场优选组合的年化收益为15.05%。股票池优选组合相对股票池等权组合的超额收益体现了多因子在另类数据选股得到的股票池基础上的收益获得能力,而股票池优选组合相对全市场优选组合的超额收益则体现了股票池本身的优势。同时,股票池优选组合在回撤控制方面的能力也比其他得对比组合表现得更为优异。 3.3 行业内表现 本小节,我们将进一步测试热辐射因子在行业内选股的效果。 当另类数据因子用于行业内选股时,首先需要做的就是判断该行业是否为基本面因素驱动股价变化的行业类别。在此基础上,再进一步判断该行业是否有足够数量的上市公司被另类数据覆盖。这种思路与我们在3.1构建精选股票池的思路类似,因为热辐射因子增长→实际业绩增长→股价增长的反应链并不具备在全市场股票样本里的普适性,因此我们认为根据行业筛选股票池再做热辐射因子选股具有可行性。 基于以上标准判断,我们选择电力设备、电子、机械设备、医药生物四个一级行业分别进行测试:基于全样本股票池,从属于对应行业的股票中,利用热辐射因子进行行业内选股策略的测算,并以行业指数以及股票池中所有的对应行业股票等权组合作为另类数据行业内选股策略的两个比较基准。回测区间统一为2018/1/1~2023/12/31,选股方案为在对应的行业股票池内,根据截面的另类数据因子大小进行排序,选择排名在20%*行业样本池数量的股票做多,等权构建股票多头组合。 3.3.1 电子行业内单因子股票组合分析 在3222只股票构成的全样本空间内,电子行业股票共345只,我们采用高清低频数据集中的母公司TIRRaw_MOM因子进行行业内选股,每次持有因子值排序前20%的股票。可以看到,在2018年2月-2023年12月的回测区间内,策略在2019、2020、2021、2022年连续四年跑赢345只电子行业股票的等权组合,并且在2020、2021、2022、2023年连续跑赢电子行业指数,并在2023年实现14.93%的收益率。回测区间内,策略的年化收益率达到13.26%,历史最大回撤小于行业指数和等权重组合。若对各年度的策略获得超额收益的能力进行比较,可以看到近3年,依靠热辐射变化单因子在电子行业内选股的有效性较2021年之前有显著提高。 从逻辑上来看,由于电子行业上市公司的主营业务往往包括设计、制造、销售和维护各种电子设备与组件,例如芯片、半导体器件、电路板、电子产品等。制造过程中产生的热量、维持设备运转所需要的热量、厂房内部热量累积等都是公司业务生产过程中的热辐射来源。因此公司区域热辐射变化能够较好地反映公司生产经营活动强弱,进而与上市公司股价紧密相关。 3.3.2 电力设备行业内单因子股票组合分析 在3222只股票构成的全样本空间内,电力设备行业股票共299只,我们采用低清高频数据集中的母公司TIRRaw_MOM因子进行行业内选股,每次持有因子值排序前20%的股票。可以看到,在2018年2月-2023年12月的回测区间内,策略在2019、2020、2021、2022年连续四年跑赢299只电力设备行业股票的等权组合,并且在2019、2021、2022、2023年连续跑赢电力设备行业指数。回测区间内,策略的年化收益率达到12.24%, 2019、2020年对超额收益的贡献比较显著。若对各年度的策略获得超额收益的能力进行比较,可以看到近2年,依靠热辐射变化单因子在电力设备行业内选股的有效性较稳定,但近年来有一定程度的下降。 3.3.3 机械设备行业内单因子股票组合分析 机械设备行业在完整股票池中的股票数量共449只,我们采用低清高频数据集中的母公司NightTIRRaw_MOM因子进行行业内选股,每次持有因子值排序前20%的股票。可以看到,在2018年2月-2023年12月的回测区间内,策略在2018、2019、2020、2021、2023年跑赢449只机械设备行业股票的等权组合,并且在2021、2022、2023年连续3年跑赢机械设备行业指数。回测区间内,策略的年化收益率达到11.61%, 其中2023年热辐射因子对超额收益的贡献最为显著。 3.3.4 医药生物行业内单因子股票组合分析 医药生物行业在完整股票池中的股票数量共364只,我们采用高清低频数据集中的母公司TIRRaw_MOM因子进行行业内选股,每次持有因子值排序前20%的股票。可以看到,在2018年2月-2023年12月的回测区间内,策略在2019、2020、2021、2023年连续4年跑赢364只医药生物行业股票的等权组合,并且在2021、2022、2023年连续3年跑赢医药生物行业指数。回测区间内,策略的年化收益率达到5.52%, 其中2021年热辐射因子对超额收益的贡献最为显著。 上述分析中,我们验证了热辐射因子用于电子、医药生物、机械设备、电力设备这四个行业的行业内选股是具有一定效果的。 4. 总结 4.1 卫星遥感数据可以是传统因子选股模型中的重要补 对于A股上市公司的业绩前瞻,另类数据主要有三方面帮助。一是拓展了分析研判的信息维度。另类数据的特殊属性,使得其包含很多预见性的信息,可以进一步优化分析研判的工作质量。二是增强了分析研判的时效性。另类数据的获取和传输时效性更强,通过借助另类数据,有助于及时、迅速掌握企业经营的实际情况。三是为量化投资提供机遇。形式多样的另类数据,为数据挖掘、机器学习等研究方法提供了更大的空间和机遇。 根据我们的观察,另类数据在实际使用上具有以下几个特征: 1) 另类数据具有客观、及时、数据质量高等优点,但根据另类数据指标的含义、测量方法的不同,其所覆盖的上市公司各不相同,且覆盖范围可能较为有限,具有行业偏度和市值偏度较高的特点。合理的另类数据选择可以在行业内选股策略中更高效地捕获阿尔法。 2) 另类数据因子的使用需要结合针对股票池的具体分析,主要原因是另类数据含义偏基本面,不同时期A股市场股价驱动因素是动态变化的且不同行业基本面驱动股价变化的逻辑之间存在差异。另类数据在数据质量保证的情况下,可以作为基本面因子加入到多因子模型中去以提高组合风险收益能力。 3) 另类数据因子不一定用于因子选股模型,也常用于主动系统化投资。报告中选择构建因子选股模型来检验因子质量只是一种通用手段,通过这种方式我们可以更直观地看到另类数据因子预测上市公司业绩进而提示股价的作用。 另类数据的获取技术壁垒较高,常见的金融数据资讯平台不一定有收录,需要与数据供应商达成合作,且数据结构需要经过额外处理方可用于模型使用。不同数据来源的数据质量存在差异。 4.2 数字化的商业生态环境使得我国在另类因子投资方面具有得天独厚的优势 在国外,另类数据投资一直以来是备受管理人关注的领域,像贝莱德、摩根大通等金融机构,在另类数据方面的积累颇丰。摩根大通在2019年发布的另类数据手册中详细地列示了针对全球的股票、债券、商品、房地产、宏观经济、消费信用、SME信用等各类资产所积累的另类数据。 其中摩根大通在消费信用方面积累了由不同数据供应商提供的55个另类数据,其中全球18个、美国33个,欧洲3个,日本1个。下面我们选择其中两个通过不同方式获得消费数据进行简单介绍: 卫星遥感:Advan是一家专注于地理位置数据的智能服务商,收集并且整理的地理位置数据可以用来表征相关上市公司的收入,特别是零售企业的销售收入。在2017年,这个数据集已经覆盖了美国30%的人口,每天可以收集大约2500万台设备的收据,涉及超过100万个实体地点,其中大约有近50万个实体地点会有人工审核。这些数据可以映射到381只股票上。这些股票有80只是标普500指数中的成分股,涉及零售、大卖场、超市、酒店、医院、餐厅、影院、游乐场、便利店和快餐公司等。 摩根大通使用的Advan的一个数据集涉及6.5GB的数据,包含了上面所说的标普500指数中的80只成分股。这些原始数据在以下层面进行了汇总:股票代码层面,在股票代码也就是上市公司层面进行汇总;商店层面,对每个商店的位置计算客流量;设备层面,在每个商店和停车场,带有时间戳、在店/离店时间以及准确位置信息;设备向量层面,每台设备在一天之内游逛过的所有位置向量。 网络数据:对公司产品的需求可以通过对公司网络的关注程度来表示。有些时候这种关注会是负面信号,比如公司发生的丑闻,但是更多的文献表明,更多对公司的关注对于公司而言是一件好事情。 这种关注度数据在数字营销领域已经应用经年,但是在股票投资领域相对来说比较新。Alpha-DNA作为一个专注于数字化需求数据领域并且服务于投资机构的专业服务商,覆盖了以下三个领域的消费关注数据: (1)网络搜索:消费者是否通过搜索引擎在线上搜索某家公司的品牌和产品。(2)网站:消费者是否会访问公司网站。(3)社交媒体:消费者是否在某家公司各个社交媒体界面上通过喜欢、追随等方式表达他们的关注度。 这类消费相关的另类数据背后的原理是,当消费需求增强时,公司的收入就会超过市场预期;而当消费需求下跌时,公司的收入就会不如市场预期。数据可以预测某家公司收入超出市场预期的可能性以及超出市场预期的幅度,后者可以称之为收入意外(revenue surprise),也就是真实收入和预期收入之间的差额。 中国是全球经济体中最适合采用另类数据投资的市场之一。相比海外,中国是领先全球的数字化市场,是另类数据投资最理想的土壤。在瞬息万变的市场环境下另类数据的及时性和客观性为投资提供了新的视角。像我们在4.1中所讨论的,另类数据因子非常适用于行业选股策略,并且当前遥感技术、大数据、机器学习等都为寻找更优质的另类数据提供了坚实的基础。以消费行业为例,我国to-C和to-B的交易通常都经过线上平台,在这种商业模式下,我国消费行业在另类数据这一方面具有相比起其他国家得天独厚的优势。 5. 风险提示及声明 风险提示:模型根据历史数据构建,历史表现不代表未来,市场环境发生重大变化时可能失效。 6. 附表
1. 引言:另类数据扮演的角色 1.1 基本面量化在国内外的应用 什么是另类数据?另类数据是金融实践者和模型构建者较少使用的一类数据,通常来自于个人(例如社媒推文)、商业活动(例如电商、信用卡交易数据)和传感器(例如卫星遥感技术、雷达等)。举个例子,消费行业的投资经理会关注识别特定商店的销售数据,无论这些数据是来自于线下商场的人流统计、电商平台的交易记录、还是发票开具平台;而高频量化交易员则会关注所有可在盘中产生的基本信号,如微博、新闻发布,对数据时效性要求更高。虽然这类数据来源不同,用途不同,但他们都具有一个共同的特点:这一类数据很少被集中清洗和整合,因此在数据获取和使用上具有一定的难度。 从海外机构对另类数据使用的实践来看,由于此类数据适用的股票、行业及场景有一定的限制,其使用更像是基本面量化的应用。在数据完整性及时效性的前提下,管理人通常将另类数据作为财报因子的补充和替代加入到选股策略中去。在大数据时代,我国对于另类数据选股的研究已有不少的积累,文本分析技术、电商平台数据等都是被广泛使用并用于投资指导的工具。但是,不是所有的另类数据所反映的信息与公司业绩或股价表现都有直接的关联,因此市面上少有直接采用单一另类因子的策略产品,另类数据通常是被作为辅证主观判断的工具来使用。 1.1.1贝莱德 另类数据因子在海外的研究和运用相对更为成熟。我们在专题报告《头部公募量化的进化和整合之路——申万宏源金工海外量化研究系列之一》这篇报告中曾经介绍过贝莱德作为量化投资的先驱,在其量化投资团队中配备了股票、债券、另类、多资产的投研人员、数据科学家和学者,团队主要使用数据和技术来提供投资回报、开发创新产品。 贝莱德量化投资团队中负责主动量化股票部分的团队在研究和策略覆盖面非常广泛,除了传统的因子投资方法论,团队近年来也在积极探索大数据、另类数据的开发和使用。 团队利用大数据构建投资组合的流程如下: 1) 信号开发:团队从广泛的数据集中开发“信号”,发现被忽视、被市场误读、可能用于投资的特征而非传统的基本面信息; 2) 数据清理和测试:确保使用的数据是正确的、具备相应特征的公司是可找到的; 3) 自动化:进行自动化数据分析和选股,确保投资过程的纪律性和可重复性; 4) 监控:团队监控数据和股票选择,以确保信号、数据持续有效,同时讨论未来可行的研究方向。 代表性的另类数据使用案例如下: 在另类数据探索中,团队仍然从扎实的经济学理论出发,例如希望找到营收增长的公司,但在如何找到相应的公司这一步上,团队用大数据对传统财报数据进行了替代,并在后续通过进一步的测试验证确保有效性。在理论的支撑下,高频、另类数据也被赋予了充分的投资逻辑,使得其alpha策略既区别于传统的因子量化,又与纯数据驱动的高频价量策略存在差异。因此,团队虽然目前有不少计算机背景的成员提供数据支持,但仍然强调研究驱动投资,团队的两位领导Raffaele Savi和Jeff Shen也分别为计算机和经济学背景,与团队强调以经济学原理为基础、用技术赋能的理念吻合。 1.2 行业景气度刻画的效果与局限性 申万金工过去针对一系列行业设计的景气框架通常由供需、宏观、上市公司财务三个维度来构成。在我们最近一篇关于刻画光伏行业景气度方法论讨论的报告《从光伏看成长与周期行业的景气度框架差异——基本面量化研究系列之一》,尝试从产业链、政策、业绩预期三个维度来衡量光伏行业景气度,具体思路如下: 在合成光伏产业链景气度的过程中,我们用到了以下数据。在后续的跟踪中,我们发现行业方面对于整体产量的公布不透明、不及时,且数据来源各异。可获得的数据大都是行业龙头上市公司滞后披露的产量数据和排产计划中披露的数据,对行业整体的覆盖不完全,忽略掉了较多的中小市值公司。因此行业景气度的构建方法和所用指标不适用于构建全市场选股或行业内选股策略。目前市场上对于选股策略的研究已经非常成熟,研究中衍生出了非常多的基本面因子。这种情况下,若想对某一行业内的所有上市公司进行横向比较,除了传统的基本面因子之外,还需要一个更加普适、客观且相对高质量的数据,而另类数据就是那个更好的选择。 1.3 卫星数据原理及应用 在1.1中我们提到,遥感数据是另类数据的三大类别之一,覆盖面较广。遥感技术提供了多维视角,有效洞察地表的变化,涵盖了热辐射、多光谱与高光谱图像、夜光数据、雷达图像及气候监测等数据。其中,多光谱与高光谱技术通过分析植被与土地利用的光谱特性,支持农业生产与城市规划的优化。夜光数据揭示经济活动的地理分布与强度,为经济发展与公共安全分析提供见解。雷达图像能在所有天气条件下监控基础设施与灾害情况,对于基础建设与应急管理至关重要。气候监测数据则为气候变化研究与能源行业的长期规划提供支持。 特别是热辐射遥感数据,其数据能直接体现地表温度的变化,上市公司尤其是制造业上市公司其所在地温度的变化与经济活动的强度紧密相关。通过热辐射数据的分析,可识别上市公司经营活动的变化,甚至预测经济趋势,为投资者评估企业提供关键工具。 此外,热辐射数据在环境监测、农业管理、灾害响应和地热资源开发等领域的应用也极为广泛。在环境监测领域,该数据有助于识别热污染源,评估城市热岛效应及监测气候变化对地表温度的影响。在农业领域,该数据指导灌溉与作物管理,优化生产流程。在灾害响应方面,可迅速评估森林火灾等自然灾害的影响。在地热资源开发方面,则有助于识别地表温度异常区域,支持地热能源的勘探与利用。 为进一步提升企业发展评估的精确性和深入性,我们计划将热辐射数据整合至公司发展情况的评估框架中,以精确监测与分析相关经济与环境指标,从而提供更为科学的决策支持。本分析报告所采用的数据来源于尔特数科公司开发的“孔明系列”热辐射数据库。该数据库包含两个主要部分:公司热辐射数据库和区域热辐射数据库,均基于卫星遥感技术收集并处理得到的数据。公司热辐射数据库专注于提供制造业上市公司及其子公司的热辐射数据,而区域热辐射数据库则覆盖了全球主要城市及中国地级市的热辐射情况。 公司热辐射数据库分为高清低频和低清高频两种类型,分别利用不同分辨率和更新频率的遥感卫星图像来反演热辐射数据,即地表热辐射。因为地表热辐射的高低变化包含了地理、季节性的因素,所以尔科提供使用的数据已经经过去除季节性、地理差异的调整,具体的调整方法是:用公司范围减去周边的缓冲区(以目标范围为中心,取5–10公里范围作为缓冲区)得到相对热辐射,再除以去年同期值得到相对热辐射同比变化。高清低频数据库使用30米分辨率的图像,更新周期为16天(自2021年11月起变更为8天),而低清高频数据库则使用约1km分辨率的图像,每天更新日间和夜间的热辐射数据。通过对接公司矢量数据,数据库包含了3361家制造业上市公司自2013年以来的热辐射数据,这些数据反映了公司的生产经营活动强度。 区域热辐射数据库则利用空间分辨率约1000米,每日更新的遥感卫星图像来反映热辐射数据。该数据库通过将短时间内可重复观测的地球表面数据与地表城市映射,构建出城市的热辐射指标。数据集涵盖了95个G20国家的主要城市以及中国336个地级市的日度、月度、季度和年度热辐射指标。 数据库中的字段丰富,包括但不限于公司股票代码、公司名称、所在省份、地址、是否为母公司、日期、年份、月份、季度、白天与夜间的平均热辐射值、行业与市场平均热辐射差值、热辐射同期变化等。这些字段不仅能够为投资决策和商业分析提供量化依据,还能够通过热辐射数据的变化趋势来预测和衡量公司的生产经营活动及区域经济情况。 需要注意的是,虽然遥感技术检测地表热辐射数据可以客观地表征企业生产经营强度,但数据质量仍然可能存在一定的干扰因素,比如云量和企业对温控的要求等等,导致观测值存在偏差或缺失的情况。 1.4 卫星数据适用于哪些行业 遥感数据对于不同区域热辐射的监测手段本身是没有差异性的,较为客观。因此在掌握遥感技术原理的基础之上,我们认为不同行业及其下属公司在工业生产模式、办公经营模式、建筑类型上的差异往往会造成热辐射数据在不同行业生产经营活动表征效果上的差距。因此根据我国的商用建筑类型来看,热辐射数据比较适用于有固定且独立的生产基地、能源消耗相对较高的行业公司。 另一方面,热辐射数据衡量的公司生产经营活动实际是公司供给端的实时体现,若采用此数据对上市公司业绩进行预测,我们认为热辐射数据更适合那些业绩受供给比受需求影响更大的公司。 例如资源开采、基建、科技行业等,地缘政治、政策因素、季节因素等费需求端的因素可能对产量产生显著影响,而这类行业的产成品面对的市场需求相对较为稳定。通过监测地表热辐射数据,可以及时发现生产活动变化,预示其对于公司业绩可能产生的影响,为投资者提供重要参考。 1.5 卫星数据的优势 相较于传统的产量相关指标,卫星数据在投资决策应用方面具有一系列明显优势:(1)时效性:卫星数据能够实时捕捉地表生产活动变化,反映企业最新的产量情况,而传统产量指标往往受制于报告周期和数据获取的滞后性,需要经过一段时间的数据收集和处理。基于卫星数据的实时性,投资者可以更快速地响应市场变化,更及时地调整投资策略,降低信息滞后带来的风险;(2)全面性:卫星数据覆盖范围广泛,可以涵盖较大范围的地理区域,同时可以深入到个股公司层面进行监测,使得对企业生产活动的评估更加全面和详尽,有助于投资者进行更具针对性的选股策略;(3)精准性:卫星数据基于高分辨率影像和先进的数据处理技术,能够提供更为准确的产量信息,避免了传统指标可能存在的统计误差和抽样偏差。 总体而言,卫星数据以其高度的时效性、精确性以及对个股公司层面的详尽覆盖,为企业维度的产量评估提供了更为全面的度量。通过深入了解各个公司的生产状况,投资者可以更准确地把握行业内的优势企业和潜在风险,从而在投资决策中赢得更大的优势。因此,结合卫星数据进行行业内选股策略的探索,能够拓宽投资者的研究思路,提供更为可靠和及时的市场洞察。 2. 热辐射数据的因子化处理和有效性检验 2.1 热辐射数据覆盖度统计 我们可得的上市公司热辐射数据所覆盖的时间范围为2019-2023年,涵盖的上市公司共3222家。高清低频样本包含3220家上市公司;低清高频样本共3222家上市公司。 对3222家上市公司所属的申万一级行业进行统计,可以看到热辐射数据覆盖到的上市公司数量主要集中在机械设备、医药生物、基础化工、电子、电力设备与汽车行业,而公用事业、社会服务、传媒、商贸零售、非银金融、房地产、交通运输等行业上市公司数量较少;从大类行业分类来看,属于先进制造与周期类的上市公司数量较多,而金融地产类上市公司数量最少。 除了对另类数据覆盖的上市公司在行业层面进行分类之外,我们也对另类数据在沪深300、中证500、中证1000等主流的市场宽基指数成分股的覆盖程度进行了统计,结果如下,对主要宽基指数都有50%以上的覆盖率,由于行业特征,制造业更多的中证1000指数覆盖度高于沪深300: 2.2 另类数据因子化 检验热辐射数据有效性之前,我们首先对另类数据的原始数据表进行数据治理,我们将在同一时间截面上属于同一股票代码的不同工厂和办公楼区域的同类热辐射数据进行加总,获得能代表某一上市公司热辐射总值。另外根据“是否为母公司”这一指标,可以将时间截面上某一上市公司的热辐射总值分为仅包含母公司的热辐射总值和不区分母公司的热辐射总值。 进一步,我们对热辐射数据指标进行因子化处理,用于后续检验另类数据指标与股价收益率、财务指标之间的相关性。具体构建方法如下表所示: 从逻辑上来看,公司热辐射同比或环比增速越大,代表公司生产经营活动有所增加;公司热辐射与行业/市场均值的比值越高,代表公司生产经营活动相对于行业或市场整体的水平在增加。 除了热辐射数据之外,我们还需要3222家上市公司的股价和财务指标。本报告所用财务数据来源为WIND底库中的中国A股利润表,对报表类型进行了筛选,仅选取合并报表(单季度)。从WIND获取的A股利润表中提取共计8个财务指标:营业总收入、营业收入、营业利润、利润总额、净利润(含少数股东损益)、EBIT、息税折旧摊销前利润、扣除非经常性损益后净利润(扣除少数股东损益)。 2.3 热辐射因子与股价收益率、财务指标的相关性检验 我们分别对低清高频、高清低频的月度与季度数据进行了测试,通过单变量线性回归的方法,测试所有因子与股价收益率以及财务指标之间的相关性。对于月度数据,测试各因子与滞后1期月度收益率之间线性相关的显著性;对于季度数据,分别测试各因子与滞后1期季度收益率、滞后1期财务指标之间线性相关的显著性。测试的时间窗口为2018-2022年。 下表在此展示了低清高频数据下部分较为显著的测试结果,高清低频数据下的结果与低清高频相似。整体而言,TIRRaw(公司区域平均热辐射)同比与环比变化率因子、TIR_IndTIR(公司区域平均热辐射与行业平均热辐射的比值)以及TIR_MktTIR(公司区域平均热辐射与市场平均热辐射的比值)因子与营业收入指标间的线性相关性较强,与股价收益率间的线性相关性相对较弱。 基于单变量线性回归结果,我们发现热辐射指标具有与收益率线性相关性低、与营业收入线性相关性高的特点。说明上市公司所在地温度的变化对营收有一定的预测性,但对股价的变化缺乏预测性,该数据并不能直接用来预测股价表现。 由于不同行业具有不同生产经营特征,另类数据与企业股价收益率及财务指标间的相关性特征也会有所不同。基于以上全市场回归结果,我们从中筛选出回归结果较好的参数组合,进行分行业回归,以探究热辐射数据对股价收益率及营业收入的预测效果在不同行业间的差异。 可以看到另类数据因子与营业收入指标间的线性相关特征在行业上存在较为明显的分化,商贸零售、建筑装饰、传媒、石油石化等行业的相关特征较为显著,而公用事业、社会服务、煤炭三个行业的回归结果不显著主要与数据集内样本数量较少有关。从大类行业来看,另类数据与营业收入强相关的特征主要集中在消费、周期、先进制造以及科技(TMT)类行业。 2.4 热辐射因子与营收增速的关系是否具有单调性 如果使用热辐射因子直接进行全市场选股,我们首先想要验证的是,热辐射因子值排序越靠前的股票,是否其热辐射数值与营收增速之间的相关性越高?同时,因子值排序越靠前的股票,其营收增速是否也能排序更靠前? 我们选择2.3表8里列举的一项热辐射季频因子:DayTIR_IndDayTIR(不区分headquarter), 指标背后体现的是各上市公司工厂、办公楼的白天热辐射与行业白天热辐射的比值。从2018年一季度开始到2023年三季度,我们在每个时间截面上,根据热辐射因子大小对有数值的股票进行排序并依次分成5组数量相等的股票(group1, group2, …, group5),分别计算每组股票因子与营业收入同比之间的相关系数。从下图可以看到,五组股票的热辐射因子在不同时间截面上与营收增速指标的相关性并不具有显著的规律。 如果去看DayTIR_IndDayTIR(不区分headquarter)在每一期的增长幅度,那么我们进一步计算DayTIR_IndDayTIR(不区分headquarter)的环比增长情况,采用与上一步同样的方法,观察在不同时间截面上五组股票因子值与营收增速之间的相关性差异。如下图所示,我们可以得到一个相似的结论,即“热辐射因子值排序越靠前的股票,其热辐射数值与营收增速之间的相关性越高”这一结论并不成立。 进一步对热辐射季频因子计算Rank_IC,可以发现“因子值排序越靠前的股票,其营收增速是否也能排序更靠前”同样不成立。 2.5 营收增速与股票收益率间的相关性检验 因为热辐射数据只对上市公司营收有预测性,而营收变化对股价的预测性则成为本文用于选股的关键。我们选择在2018年之前已上市的A股,从2018年一季度到2023年三季度每个时间截面上,分别测算上市公司的营业收入同比因子和净利润同比因子与对应股票季度收益率之间的斯皮尔曼线性相关系数,并由此得到营收同比因子IC序列和净利润同比因子IC序列。 从IC测算结果上看,营收同比因子和净利润同比因子的IC值在2018年一季度到2021年三季度都相对稳定,相关系数稳定保持在0.05以上。但从2021年四季度开始,两个因子的IC都有呈现减小态势,并且相关关系显著性降低。我们可以判断,从2021年四季度开始,基本面因子的有效性有所下降,也会影响热辐射数据的使用环境——即该数据所打造的因子是一个典型的基本面因子,在基本面更能驱动股价的市场环境里会表现更好。 3. 热辐射因子在选股策略中的应用 根据第二章的分析,我们得到以下2个主要结论: 1、我们发现热辐射因子值大小不影响因子值与营收关系强弱,即因子值高不一定代表其与营收关系强; 2、基本面因子与股价收益率的关系在近两年也存在较为明显的减弱。 基于此,我们认为热辐射因子的单调性较弱,不适合作为单因子在全市场股票池中进行选股。在本章节,我们将主要利用热辐射因子分别进行单因子和多因子股票组合测算,简要思路如下: 1、通过营收同比和股价收益率之间的相关性大小排序筛选“精选股票池”,再在精选股票池中使用热辐射因子单因子选股策略; 2、热辐射因子能够较为高效、客观地刻画上市公司生产经营活动,通过热辐射因子构造具有潜在营收增长能力的基础股票池,再在营收潜在增长的基础股票池内,用多因子来进一步优选股票。 3.1精选股票池内单因子选股 3.1.1 精选股票池的构成 我们在热辐射数据覆盖的所有股票中,筛选得到股价收益率和营收具有较高相关性的成分股,在这个给定的精选池中利用热辐射因子进行单因子选股。使用2018Q1-2022Q4区间的季度数据序列,我们统计各上市公司季度股价收益率和营收增速的回归系数大小,并以此作为筛选标准,构造精选股票池。同时考虑到股票市值因素,尽可能剔除市值偏小的股票。具体步骤如下。 得到回归结果后,先按照回归系数绝对值排序,初步筛选出系数最大的前400只股票,随后在400只股票中进一步按照股票总市值排序,选取总市值最大的前200只股票构成精选股票池。精选股票池内200只股票的回归系数绝对值整体在0.6以上,R2整体在40%以上。 从申万一级行业分布来看,精选股票池内上市公司主要集中在电子、电力设备、医药生物、机械设备、汽车、基础化工等行业,先进制造、科技(TMT)与周期大类行业占比较高。钢铁、传媒、煤炭等行业在2.3节的相关性检验中表现较好,但由于在原始数据集内对应公司的样本较少,因此纳入精选股票池的公司数量不多。 从市值分布来看,截至2023/12/29,股票池内所有股票的总市值均值约为343亿元,总体而言,精选股票池偏中小市值股票。 从各行业总市值占比来看,电子行业总市值之和占比超20%,其次为汽车、医药生物、电力设备。按大类行业统计,先进制造与科技(TMT)大类的占比较高,行业分布较为均衡。 3.1.2 精选股票池单因子选股策略方法及策略表现 精选股票池内策略的选股逻辑为:对精选股票池内的成分股根据另类数据因子值在横截面上进行排序,选取排名前40只股票做多(根据精选股票池数量的20%确定),投资组合内各股票等权重配置。策略的回测区间为2018年2月-2023年12月,调仓频率与所用另类数据频率相对应。根据精选股票池内股票偏中小市值的特点,选择中证1000作为指数基准,同时以精选股票池内200只股票做等权重配置的投资组合作为业绩基准。由于测算的参数较多,本报告将对较为有效的因子以及参数对应的策略结果进行展示。 低清高频数据:月频、DayTIRRaw_MOM、母公司 下表展现的策略结果是基于低清高频数据集中母公司区域平均白天热辐射月度环比因子构建的月频选股策略结果。这个因子选择了在最近一期统计区间内白天热辐射增长最快的前20%的公司,因子背后的逻辑是最近公司区域内热辐射相对更为快速的增长代表了公司可能的生产经营活动扩张,业绩将有更多的提升。策略在2019、2020、2021三年的表现较优,相比等权重组合和基准指数都有较高的超额收益。在2018年2月-2023年12月的回测区间内策略年化收益率为15.43%,夏普比率为0.63,等权组合年化收益率为9.2%,夏普比率为0.44。 下面,我们进一步对因子进行分组测试,我们根据每一期精选股票池中的各股票的因子值进行排序,依次将股票分为5组,每组由股票池数量的20%股票构成,即每组40只,分别为Group1, Group2, …。由于热辐射数据存在残缺值的情况,因此精选股票池存在可选股票数量不满200只的情况。这种情形下,我们优先保证前几个分组40只的股票数量,因此可能存在Group4、Group5数量较少甚至为0的情况。从下图的分组测试结果来看,低清高频、月度、母公司、DayTIRRaw_MOM这个因子的单调性较好,但在近两年有一定程度的减弱。这一点与我们从表11中策略超额收益在2022年、2023年出现明显下降的结论是一致的。 高清低频数据:月频、TIRRaw_MOM、母公司 下表展现的策略结果是基于高清低频数据集中母公司区域平均热辐射月度环比因子构建的月频选股策略结果。这个因子选择了在最近一期统计区间内热辐射增长最快的前20%的公司,不再区分白天或者夜间。该因子背后的逻辑和DayTIRRaw_MOM相似,同时还包含了对于夜间热辐射变化的统计。策略表现在2019-2023年期间较为稳定地优于等权重组合表现和中证1000指数表现。在2018年2月-2023年12月的回测区间内策略年化收益率为17.5%,夏普比率为0.73,等权组合年化收益率为9.2%,夏普比率为0.44。 下面图展示了高清低频月度数据下以母公司TIRRaw_MOM为因子的分组测试结果:从下图的分组测试结果来看,高清低频、月度、母公司、TIRRaw_MOM这个因子的单调性较好,且近两年没有出现显著的衰弱。这与我们从表13中策略超额收益在2019-2023的持续性保持了一致。 在以上两组组合策略的回测结果中,我们可以观察到热辐射因子超额收益都从2022年开始衰减,这一现象与我们在2.5小节中关于基本面因子近年来失效的结论相互得到了印证。另外值得注意的是,由于月频的热辐射因子存在残缺值的概率较高,以上两组精选股票池内单因子股票组合策略的换手率均偏高,且因子分组测算结果中我们也可以看到后几组的净值曲线趋于水平。 3.1.3 热辐射因子涵盖的基本面因子是否是分析师预期之外的补充? 分析师指标反应的对公司业绩的市场预期通常基于公司调研、公告等手段获取的生产经营活动相关公开信息,而热辐射数据属于通过卫星遥感技术手段获得的与公司生产经营活动相关联的客观信息,两者在反映的事件类型上具有一定重叠。 因此,我们想看热辐射因子所提供的是否是在市场预期之外的增量信息。进一步对比3.1.2的策略表现和分析师一致预期因子选股的策略表现,观察另类数据因子的选股策略表现是否具有优越性。两个策略回测区间相同,样本股相同,信号频率相同,因子是唯一的变量。下面我们选取低清高频月度数据下的母公司DayTIRRaw_MOM因子月频策略与分析师预期营业收入同比因子月频策略表现进行对比。 结果显示,基于另类数据因子的选股策略能够战胜基于分析师预期因子的选股策略。分年度来看,另类数据因子的选股策略在2021-2023年的超额收益显著。基于上述回测结果,我们可以认为另类数据在选股策略方面,是相对于基本面信息的重要增量信息,且具有一定程度的优越性。 3.2 构建营收潜在增长的股票组合 3.2.1 基础股票池的构建 经过第2章节的统计,我们得到热辐射因子值大小与营收变化的排序没有单调性,即因子值最高的上市公司不一定代表营收增速最多,因此该另类数据无法直接因子化的结论。基于此,我们将在2018Q2-2023Q4这一时间段内季度地筛选股票池,每一期(季度)末根据当期数值筛选下一期多因子选股策略基础股票池。具体的筛选方法是:每一期末,筛选前一期因子数值排名前1000,且本期有数据的股票,再从中筛选排名靠前的700只股票构成基础股票池。通过这种方式,我们在确定入选股票池成分股热辐射季度增长为正的情况下,尽量使得股票池的成分股数量得以保证并且成分股的连贯性较高。 鉴于3.1的测算,我们发现热辐射月度数据存在较多残缺值的情况,因此可能导致选股策略的高换手率。这次我们在选择基础股票池时采用了季度数据,季度数据的低频化一定程度上规避了这种数据缺陷。同时为了降低换手率,我们特意采用上述方式筛选股票池,以保证股票池的持续性,避免过高的股票进出率。经统计,2018Q1-2023Q4期间,基础股票池的股票进出率基本保持在10%左右,基础股票池较为连续。 我们选择最近一期股票池(2023Q4)为例,对股票池的行业分布情况进行简单的统计。可以看到,股票池在行业分布上较为均衡,其中医药生物、机械设备、电子、电力设备、基础化工、汽车等行业成分股数量最多。 我们对700股票池成分股中当期营收同比增长为正的比例进行统计,结果如下图。2018Q2-2023Q3,仅2020Q1和2022Q4的比例小于50%,其他季度成分股同比增长比例均在50%,且2021年一季度有超过90%的股票营收增速为正。初步判断,我们认为DayTIR_IndDayTIR指标能够选出具有潜在营收增速的股票池。 3.2.2 多因子组合构建及测试 针对3.2.1小节筛选出的基础股票池,对选股因子在股票池内的选股效果进行测试,回测区间为2018/3/31~2023/12/31,每季度末进行组合调仓。选股因子包括成长、盈利、估值、波动性、流动性、长期动量、短期反转、市值、分析师、分红,因子具体定义可以参考附表1。 比较选股因子在基础股票池内的IC均值及分组多头超额收益的强弱表现,并且考虑到因子间的相关性(尽管选股因子做了逐步正交的处理),最后我们选取Growth、Value、Volatility、Momentum、Size、Analyst六个因子作为选股因子,因子权重采取等权的方式。 在2018/6/30-2024/3/31回测区间,每年3、6、9、12月底,基于因子打分方式对基础股票池内的股票进行打分排序,选取得分靠前的50值股票,按照等权的方式构建组合,下称“股票池优选”。在每期构建组合时,另外再增加市值因子排序前80%、剔除北交所和ST股票的限制条件。同时,我们选取沪深300、中证500、中证1000、基础股票池等权组合、全市场优选组合在同一回测区间内的净值表现作为对比。 2018/6/30-2024/3/31业绩比较区间,股票池优选组合的年化收益为20.5%,同期股票池等权组合的年化收益为6.52%,全市场优选组合的年化收益为15.05%。股票池优选组合相对股票池等权组合的超额收益体现了多因子在另类数据选股得到的股票池基础上的收益获得能力,而股票池优选组合相对全市场优选组合的超额收益则体现了股票池本身的优势。同时,股票池优选组合在回撤控制方面的能力也比其他得对比组合表现得更为优异。 3.3 行业内表现 本小节,我们将进一步测试热辐射因子在行业内选股的效果。 当另类数据因子用于行业内选股时,首先需要做的就是判断该行业是否为基本面因素驱动股价变化的行业类别。在此基础上,再进一步判断该行业是否有足够数量的上市公司被另类数据覆盖。这种思路与我们在3.1构建精选股票池的思路类似,因为热辐射因子增长→实际业绩增长→股价增长的反应链并不具备在全市场股票样本里的普适性,因此我们认为根据行业筛选股票池再做热辐射因子选股具有可行性。 基于以上标准判断,我们选择电力设备、电子、机械设备、医药生物四个一级行业分别进行测试:基于全样本股票池,从属于对应行业的股票中,利用热辐射因子进行行业内选股策略的测算,并以行业指数以及股票池中所有的对应行业股票等权组合作为另类数据行业内选股策略的两个比较基准。回测区间统一为2018/1/1~2023/12/31,选股方案为在对应的行业股票池内,根据截面的另类数据因子大小进行排序,选择排名在20%*行业样本池数量的股票做多,等权构建股票多头组合。 3.3.1 电子行业内单因子股票组合分析 在3222只股票构成的全样本空间内,电子行业股票共345只,我们采用高清低频数据集中的母公司TIRRaw_MOM因子进行行业内选股,每次持有因子值排序前20%的股票。可以看到,在2018年2月-2023年12月的回测区间内,策略在2019、2020、2021、2022年连续四年跑赢345只电子行业股票的等权组合,并且在2020、2021、2022、2023年连续跑赢电子行业指数,并在2023年实现14.93%的收益率。回测区间内,策略的年化收益率达到13.26%,历史最大回撤小于行业指数和等权重组合。若对各年度的策略获得超额收益的能力进行比较,可以看到近3年,依靠热辐射变化单因子在电子行业内选股的有效性较2021年之前有显著提高。 从逻辑上来看,由于电子行业上市公司的主营业务往往包括设计、制造、销售和维护各种电子设备与组件,例如芯片、半导体器件、电路板、电子产品等。制造过程中产生的热量、维持设备运转所需要的热量、厂房内部热量累积等都是公司业务生产过程中的热辐射来源。因此公司区域热辐射变化能够较好地反映公司生产经营活动强弱,进而与上市公司股价紧密相关。 3.3.2 电力设备行业内单因子股票组合分析 在3222只股票构成的全样本空间内,电力设备行业股票共299只,我们采用低清高频数据集中的母公司TIRRaw_MOM因子进行行业内选股,每次持有因子值排序前20%的股票。可以看到,在2018年2月-2023年12月的回测区间内,策略在2019、2020、2021、2022年连续四年跑赢299只电力设备行业股票的等权组合,并且在2019、2021、2022、2023年连续跑赢电力设备行业指数。回测区间内,策略的年化收益率达到12.24%, 2019、2020年对超额收益的贡献比较显著。若对各年度的策略获得超额收益的能力进行比较,可以看到近2年,依靠热辐射变化单因子在电力设备行业内选股的有效性较稳定,但近年来有一定程度的下降。 3.3.3 机械设备行业内单因子股票组合分析 机械设备行业在完整股票池中的股票数量共449只,我们采用低清高频数据集中的母公司NightTIRRaw_MOM因子进行行业内选股,每次持有因子值排序前20%的股票。可以看到,在2018年2月-2023年12月的回测区间内,策略在2018、2019、2020、2021、2023年跑赢449只机械设备行业股票的等权组合,并且在2021、2022、2023年连续3年跑赢机械设备行业指数。回测区间内,策略的年化收益率达到11.61%, 其中2023年热辐射因子对超额收益的贡献最为显著。 3.3.4 医药生物行业内单因子股票组合分析 医药生物行业在完整股票池中的股票数量共364只,我们采用高清低频数据集中的母公司TIRRaw_MOM因子进行行业内选股,每次持有因子值排序前20%的股票。可以看到,在2018年2月-2023年12月的回测区间内,策略在2019、2020、2021、2023年连续4年跑赢364只医药生物行业股票的等权组合,并且在2021、2022、2023年连续3年跑赢医药生物行业指数。回测区间内,策略的年化收益率达到5.52%, 其中2021年热辐射因子对超额收益的贡献最为显著。 上述分析中,我们验证了热辐射因子用于电子、医药生物、机械设备、电力设备这四个行业的行业内选股是具有一定效果的。 4. 总结 4.1 卫星遥感数据可以是传统因子选股模型中的重要补 对于A股上市公司的业绩前瞻,另类数据主要有三方面帮助。一是拓展了分析研判的信息维度。另类数据的特殊属性,使得其包含很多预见性的信息,可以进一步优化分析研判的工作质量。二是增强了分析研判的时效性。另类数据的获取和传输时效性更强,通过借助另类数据,有助于及时、迅速掌握企业经营的实际情况。三是为量化投资提供机遇。形式多样的另类数据,为数据挖掘、机器学习等研究方法提供了更大的空间和机遇。 根据我们的观察,另类数据在实际使用上具有以下几个特征: 1) 另类数据具有客观、及时、数据质量高等优点,但根据另类数据指标的含义、测量方法的不同,其所覆盖的上市公司各不相同,且覆盖范围可能较为有限,具有行业偏度和市值偏度较高的特点。合理的另类数据选择可以在行业内选股策略中更高效地捕获阿尔法。 2) 另类数据因子的使用需要结合针对股票池的具体分析,主要原因是另类数据含义偏基本面,不同时期A股市场股价驱动因素是动态变化的且不同行业基本面驱动股价变化的逻辑之间存在差异。另类数据在数据质量保证的情况下,可以作为基本面因子加入到多因子模型中去以提高组合风险收益能力。 3) 另类数据因子不一定用于因子选股模型,也常用于主动系统化投资。报告中选择构建因子选股模型来检验因子质量只是一种通用手段,通过这种方式我们可以更直观地看到另类数据因子预测上市公司业绩进而提示股价的作用。 另类数据的获取技术壁垒较高,常见的金融数据资讯平台不一定有收录,需要与数据供应商达成合作,且数据结构需要经过额外处理方可用于模型使用。不同数据来源的数据质量存在差异。 4.2 数字化的商业生态环境使得我国在另类因子投资方面具有得天独厚的优势 在国外,另类数据投资一直以来是备受管理人关注的领域,像贝莱德、摩根大通等金融机构,在另类数据方面的积累颇丰。摩根大通在2019年发布的另类数据手册中详细地列示了针对全球的股票、债券、商品、房地产、宏观经济、消费信用、SME信用等各类资产所积累的另类数据。 其中摩根大通在消费信用方面积累了由不同数据供应商提供的55个另类数据,其中全球18个、美国33个,欧洲3个,日本1个。下面我们选择其中两个通过不同方式获得消费数据进行简单介绍: 卫星遥感:Advan是一家专注于地理位置数据的智能服务商,收集并且整理的地理位置数据可以用来表征相关上市公司的收入,特别是零售企业的销售收入。在2017年,这个数据集已经覆盖了美国30%的人口,每天可以收集大约2500万台设备的收据,涉及超过100万个实体地点,其中大约有近50万个实体地点会有人工审核。这些数据可以映射到381只股票上。这些股票有80只是标普500指数中的成分股,涉及零售、大卖场、超市、酒店、医院、餐厅、影院、游乐场、便利店和快餐公司等。 摩根大通使用的Advan的一个数据集涉及6.5GB的数据,包含了上面所说的标普500指数中的80只成分股。这些原始数据在以下层面进行了汇总:股票代码层面,在股票代码也就是上市公司层面进行汇总;商店层面,对每个商店的位置计算客流量;设备层面,在每个商店和停车场,带有时间戳、在店/离店时间以及准确位置信息;设备向量层面,每台设备在一天之内游逛过的所有位置向量。 网络数据:对公司产品的需求可以通过对公司网络的关注程度来表示。有些时候这种关注会是负面信号,比如公司发生的丑闻,但是更多的文献表明,更多对公司的关注对于公司而言是一件好事情。 这种关注度数据在数字营销领域已经应用经年,但是在股票投资领域相对来说比较新。Alpha-DNA作为一个专注于数字化需求数据领域并且服务于投资机构的专业服务商,覆盖了以下三个领域的消费关注数据: (1)网络搜索:消费者是否通过搜索引擎在线上搜索某家公司的品牌和产品。(2)网站:消费者是否会访问公司网站。(3)社交媒体:消费者是否在某家公司各个社交媒体界面上通过喜欢、追随等方式表达他们的关注度。 这类消费相关的另类数据背后的原理是,当消费需求增强时,公司的收入就会超过市场预期;而当消费需求下跌时,公司的收入就会不如市场预期。数据可以预测某家公司收入超出市场预期的可能性以及超出市场预期的幅度,后者可以称之为收入意外(revenue surprise),也就是真实收入和预期收入之间的差额。 中国是全球经济体中最适合采用另类数据投资的市场之一。相比海外,中国是领先全球的数字化市场,是另类数据投资最理想的土壤。在瞬息万变的市场环境下另类数据的及时性和客观性为投资提供了新的视角。像我们在4.1中所讨论的,另类数据因子非常适用于行业选股策略,并且当前遥感技术、大数据、机器学习等都为寻找更优质的另类数据提供了坚实的基础。以消费行业为例,我国to-C和to-B的交易通常都经过线上平台,在这种商业模式下,我国消费行业在另类数据这一方面具有相比起其他国家得天独厚的优势。 5. 风险提示及声明 风险提示:模型根据历史数据构建,历史表现不代表未来,市场环境发生重大变化时可能失效。 6. 附表
大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)
郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。