一、国证2000成分股因子有效性分析
1、因子模型和因子评价
1.Barra模型是什么?
1974年,美国学者Barr Rosenberg第一次提出采用多因子风险模型来对投资组合的风险和收益进行分析。多因子模型的基础理论认为:股票的收益是由一些共同的因子来驱动的,不能被这些因子解释的部分被称为股票的“特质收益率”,而每支股票的特质收益率之间是互不相关的。
BARRA模型是MSCI公司开发的一个经典的金融风险控制模型,在全球有着大量的机构用户。根据BARRA的理论模型,股票收益率可以被三类因素解释,分别是国家因子、行业因子以及风格因子。目前主流的CNE5和CNE6模型都是在风格因子层面对股票收益率进行解释。
目前基于BARRA模型广泛应用于各大机构的策略风控、市场分析、持仓分析、竞品风格分析等领域。
2.Barra CNE5的十大风格因子有哪些?
因子中文名 | 因子英文名 | 构建方式/计算方法 | 核心含义与投资逻辑 |
1. 市值因子 | Size | 公司总市值的自然对数 | 规模效应:通常小市值公司比大市值公司有更高的长期平均收益(规模溢价)。在A股市场,该因子往往负向暴露能取得收益,即偏向小盘股 。 |
2. 贝塔因子 | Beta | 个股超额收益对市场组合超额收益进行时间序列回归的斜率系数(通常用过去252个交易日数据,半衰期63天) | 市场敏感度:衡量股票相对于整个市场的波动弹性。高Beta股票在市场上涨时涨幅更大,下跌时跌幅也更深。在A股市场,该因子正向暴露能取得收益 。 |
3. 动量因子 | Momentum | 过去特定时间窗口(如过去525个交易日,剔除最近21个交易日)的加权收益率 | 趋势效应:认为过去一段时间表现好的股票(强势股),未来一段时间可能继续表现好;反之亦然(强者恒强)。动量因子与反转因子相对,短期常表现为反转,中长期常表现为动量 。 |
4. 残差波动率因子 | Residual Volatility | 剔除市场和行业影响后,股票自身特有的波动性。通常由个股收益率不能被市场因子解释的部分的标准差来衡量 | 低波动异象:历史上,低波动率的股票往往比高波动率的股票有更好的长期表现。这与传统金融学“高风险高收益”的直觉相反,故称“异象”。该因子往往负向暴露能取得收益,即偏向低波动股票 。 |
5. 非线性市值因子 | Non-linear Size | 对市值因子进行非线性变换(如立方)后,再与市值因子正交化处理得到 | 中盘股效应:捕捉市值与收益之间可能存在的非线性关系(例如,某些中等市值公司的表现可能优于大盘股和小盘股)。该因子往往负向暴露能取得收益 。 |
6. 账面市值比因子 | Book-to-Price | 公司最近一期财报的普通股账面价值除以当前总市值 | 价值效应:衡量股票的估值水平。高账面市值比的股票被认为是“价值股”(股价相对便宜),低账面市值比的股票被认为是“成长股”(股价相对昂贵)。该因子正向暴露能取得收益,即偏向价值股 。 |
7. 流动性因子 | Liquidity | 通常用股票的换手率来衡量,如过去1个月、3个月、12个月的平均换手率(对数处理) | 低流动性溢价:交易不活跃、流动性差的股票,由于变现困难、交易成本高,需要提供更高的预期收益作为补偿。该因子往往负向暴露能取得收益,即偏向低换手率(低流动性)的股票 。 |
8. 盈利因子 | Earnings Yield | 结合多个盈利指标,如分析师预测的市盈率的倒数、过去12个月的盈利收益率、现金盈利收益率等 | 盈利能力:衡量公司创造利润的能力。高盈利能力的公司(盈利收益率高)往往有更好的市场表现,尤其是在大盘股中更为显著 。 |
9. 成长因子 | Growth | 结合多个成长指标,如过去5年的销售收入增长率、盈利增长率,以及分析师预测的长期和短期盈利增长率 | 增长潜力:衡量公司未来的成长前景。但在实证中,单纯的“高成长”预期可能已经被市场消化,该因子在A股市场的显著性相对较弱,常与其他因子结合使用 。 |
10. 杠杆因子 | Leverage | 结合市场杠杆(市值+优先股+长期负债)/市值)、资产负债率(总负债/总资产)和账面杠杆(账面权益+优先股+长期负债)/账面权益) | 财务风险:衡量公司的财务杠杆水平。高杠杆公司通常财务风险更高,其影响较为复杂,可能在不同市场环境下表现不同,单独作为选股因子的显著性相对较弱 。 |
3.如何理解“因子暴露”?
因子暴露:指投资组合或单只股票在某一因子上的 “载荷 / 倾向性”。例如,重仓小市值股票的组合,在 BARRA CNE5 的 “市值因子”上呈高负向暴露(该因子默认以大市值为正向)。
因子收益率:某一时间段内,单纯因暴露于某因子所获得的收益。例如,小盘风格占优时,市值因子的负向暴露会贡献正收益。
因子正交化:由于不同因子间存在相关性(如非线性市值与市值因子),为准确衡量各因子的独立贡献,构建模型时需做正交化处理,消除因子间的共线性。
应用场景:投资组合的风险控制;业绩归因分析(分析基金的收益来源是来自市场风格还是基金经理的选股能力);以及构建Smart Beta策略(在控制其他因子暴露的前提下,追求特定因子的暴露以获取超额收益)
4.为什么要关注“因子暴露”?
理解这个概念,主要有两个实际用途:
1)理解收益和风险的来源(归因分析)
研报中 “风格贡献 2.88%,其余 7.22% 为特质选股能力贡献”,其中风格贡献即策略主动暴露于特定因子(如小市值、低流动性)所获收益,剩余部分才是真正的选股能力。
简单来说:因子暴露能区分基金经理的收益,是“踩中市场风格的运气”(如小盘股行情),还是“精选个股的实力”。
2)构建和管理投资组合
正向应用:想要某类收益,就主动暴露对应因子(如看好小盘行情,就提高市值因子的负向暴露);
风险控制:规避某类风险,就控制对应因子暴露(如不想承担高波动,就降低残差波动率因子暴露);
策略对比:
① 纯国证 2000 小市值策略:市值因子暴露极高,收益几乎完全依赖该因子的行情爆发;
② 国证 2000 增强策略:保留市值因子高暴露的同时,通过机器学习因子增加盈利、成长等因子暴露,收益来源更多元,组合稳定性更强。
5.如何看因子暴露的数值?
Barra CNE5 的因子暴露值为标准化后数值(均值 μ=0,标准差σ=1),不同区间的含义和尾部占比如下,是判断因子暴露程度的核心标准:
6.几个常见的因子评价指标
IC是information coefficient的缩写。IC代表了预测值和实现值之间的相关性, 通常用以评价预测能力。取值在-1到1之间,绝对值越大,表示预测能力越好。
IC的计算,一般有两种方法,normal IC与rank IC。
normal IC:因子载荷与因子收益之间的相关系数
rank IC: 因子载荷的排序值与收益的排序值之间的相关系数
指标 | 含义 | 计算方式 | 数值解读(多大算好) | 备注 |
IC_mean | 信息系数的均值,衡量因子预测能力的平均强度 | 在多个时间截面上计算因子值与下期收益的相关系数(通常是Spearman秩相关),然后取时间序列的平均值 | - 绝对值 > 0.02:有微弱预测能力 - 绝对值 > 0.05:有较强预测能力 - 绝对值 > 0.1:预测能力很强 | 正值表示因子值与未来收益正相关,负值表示负相关。 |
Rank_IC | 秩相关系数,即因子值与未来收益的排名相关性 | 在每个截面上计算因子值排名与下期收益率排名的Spearman相关系数 | 同IC_mean,但更稳健,不易受极端值影响 | 通常IC_mean就是Rank_IC的均值,因为实践中常用秩相关。 |
IC_std | IC值的标准差,衡量因子预测能力的波动性 | 对所有时间截面的IC值计算标准差 | - 越小越好,说明因子表现稳定 - 一般希望 IC_std < 0.1 或更小 | 与IC_mean结合使用,波动越小,因子越可靠。 |
IC_IR | IC的信息比率,衡量因子预测能力的稳定性(信噪比) | IC_mean / IC_std | - > 0.5:可接受 - > 1.0:良好 - > 2.0:优秀,非常稳定 | 反映单位风险(波动)带来的预测能力,是因子筛选的核心指标。 |
IR | 信息比率(Information Ratio) | 在因子评价中通常与IC_IR同义,有时也指多空组合的超额收益除以跟踪误差 | 同上 | 同上 |
t统计量 | 检验IC均值是否显著不为零的统计量 | t = IC_mean / (IC_std / sqrt(n)),其中n为时间期数 | - 绝对值 > 2:通常认为在95%置信水平下显著 - 绝对值 > 2.58:99%置信水平下显著 | t统计量越大,越能拒绝IC均值为零的原假设,即因子有效不是偶然。 |
p-value | 与t统计量对应的显著性概率值 | 根据t分布计算 | - < 0.05:在5%水平下显著 - < 0.01:在1%水平下非常显著 | p-value越小,因子有效的统计证据越强。 |
单调性 | 因子分组测试中,各组平均收益是否严格递增或递减 | 将股票按因子值从小到大分为N组(如5组或10组),观察每组平均收益或超额收益的变化趋势 | - 严格单调:收益随因子值单调上升或下降,说明因子分层效果好 - 部分单调:个别组偏离,但仍有一定趋势 - 无单调性:混乱,因子无效 | 通常结合分组收益图或表格判断,单调性越好,因子越稳健。 |
指标 | 含义 | 计算方式 | 数值解读(多大算好) | 备注 |
上述指标通常是在因子有效性检验中一起使用的,IC_mean和IC_IR(或IR)是最重要的两个,分别衡量因子的强度和稳定性。
t统计量和p-value是对IC_mean的统计显著性检验,帮助判断因子是否可能由随机性导致。
单调性是分组检验的结果,直观展示因子在不同水平上的区分能力,如果单调性好,即使IC均值不高,也可能有实用价值。
2、Barra CNE5的10个风格因子表现
2015 年以来,Barra CNE5 十大风格因子在国证 2000、中证 1000、中证 800成分股内的Rank Mean IC 和 ICIR表现对比,得出核心结论:
1)国证 2000 成分股内:对数市值、动量、残差波动率、非线性市值、账面市值比、流动性风格因子的显著性更高;
2)中证 800 成分股内:Beta 因子、盈利因子的显著性更高;
3)中证 1000 成分股内:因子有效性介于国证 2000 和中证 800 之间。
该结果与指数风格高度匹配:国证 2000 偏小盘,技术面因子更有效;中证 800 偏大盘,基本面类因子更有效。
3、规模因子表现——国证2000小市值策略
1. 统一选股和交易规则
1) 剔除北交所、停牌和涨停股票;
2) 剔除上市不满120个交易日的股票;
3) 基准是国证2000指数399303.SZ;
4) 月度调仓,每月月初调仓;
5) 交易费用双边千三。
6)分组规则:符合条件的成分股按因子值分 5 组,平均每期每组入选约 390 只股票。
2.结果分析
规模因子在国证 2000 成分股内的表现并非完全单调,组1至组 5 的超额年化收益率无连续单向增减趋势,收益单调性不足,这也是纯小市值策略的核心缺陷,因此需要结合其他因子进一步增强国证2000小市值投资策略的稳定性。
二、机器学习模型
研报为弥补规模因子单调性不足的问题,构建了机器学习残差因子、机器学习反转因子、机器学习复合因子三大因子,核心构建逻辑和步骤如下:
1. 核心输入因子
风格因子:Barra CNE5 十大风格因子;
财务因子:精选 5 类核心财务指标(均做同比增速 / 直接取值处理),分别为季度 ROE、季度营业成本同比增速、季度总营业成本同比增速、季度研发投入同比增速、季度营业利润同比增速。
2. 机器学习模型选择
采用多模型集成策略,避免单一模型的过拟合问题,具体包含 3 类模型(共 8 个子模型):
1)2个不同神经元个数的神经网络模型;
2)3个不同树数目的随机森林模型;
3)3个不同深度的提升树模型。
3. 模型输出处理
1)对每类模型的子模型预测结果,计算代数平均值,得到三类集成模型的单独输出;
2)对三类集成模型的输出做z-score 标准化,消除量纲影响;
3)对标准化后的结果计算平均值,得到总集成输出值。
4. 三大机器学习因子构建
1)机器学习残差因子:将总集成输出值对风格因子做正交化处理,剥离风格暴露,仅保留财务因子和特质收益相关信息;
2)机器学习反转因子:取模型拟合特质收益率的残差相反数,再对风格因子做正交化处理,捕捉股票的错误定价反转机会;
3)机器学习复合因子:将残差因子和反转因子分别做 z-score 处理后等权相加,融合两类因子的选股优势,为最优单一机器学习因子。
三、机器学习策略表现
研报依次对三大机器学习因子、“合成因子(机器学习复合因子+规模因子)” 进行分组回测,核心结论如下(均基于 2019 年以来国证2000成分股数据):
1. 单一机器学习因子表现
三大机器学习因子的分组单调性均稳健(核心优势),但多头组超额年化收益均低于纯规模因子,具体表现:
- 机器学习残差因子:多头组超额年化9%,单调性稳健,但收益最低;
- 机器学习反转因子:多头组超额年化10.5%,效果优于残差因子,单调性依旧稳健;
- 机器学习复合因子:多头组超额年化10.8%,为单一机器学习因子最优,单调性最优。
机器学习复合因子收益归因:总超额年化 10.8% 中,风格贡献2.88%,行业贡献0.77%,特质选股能力贡献 7.22%(核心收益来源)。
2. 国证 2000 增强策略(合成因子:机器学习复合因子 + 规模因子)
为兼顾规模因子的高收益和机器学习因子的稳健单调性,研报构建合成因子,打造最终的国证 2000 增强策略。
1. 合成因子构建方法
在每期国证 2000 成分股横截面内,分别对机器学习复合因子、规模因子做 Rank 排序,再将两个排序结果等权合成,得到新的选股因子。
2. 合成因子核心优势
1)继承机器学习复合因子优秀、稳定的分层选股能力,解决纯规模因子单调性不足的问题;
2)保留对小市值风格的高主动暴露,不丢失规模溢价的核心收益;
3)实现机器学习的“风格 / 行业中性”与小市值风格的融合增强,收益来源更多元。
3. 合成因子回测核心结果
1)单调性:组 1 至组 5 的超额年化收益率单调性显著提升,为所有策略中最优;
2)收益:多头组超额年化收益率15.4%,大幅超越纯规模因子(12.1%)和单一机器学习因子(最高 10.8%);
3)收益归因:总超额年化 15.4% 中,风格贡献5.52%,行业贡献1.2%,特质选股能力贡献 8.69%,三大贡献均较机器学习复合因子显著提升;
4)风格暴露:相比单一机器学习复合因子,合成因子更多暴露于风格因子,契合小市值增强的核心逻辑。
3. 策略容量测试
研报设置 “单只股票买卖金额不超过当日成交量 5%”的约束,分别测试 5 亿、10 亿、20 亿、50 亿、100 亿、200 亿资金规模下合成因子策略的表现,核心结论:
国证 2000 增强策略的有效资金容量约 100 亿
四、总结
1.国证2000 是小市值风格增强策略的最优基准股票池,相比中证1000,其平均流通市值更低(2023年2月初39.34亿vs62.12亿)、策略容量更大(2000只成分股,周成交额更高)、专精特新属性更突出(297只vs142只,平均流通市值40.12亿 vs64.53亿),更贴合成长、“小而精” 的制造业企业。
2.不同指数的因子有效性差异显著:国证2000(小盘)内技术面因子(对数市值、动量等)更有效,中证800(大盘)内基本面因子(Beta、盈利)更有效,中证1000因子有效性介于两者之间,符合小盘重技术、大盘重基本面的市场规律。
3.国证2000内规模溢价效应显著,2019年以来纯规模因子多头组超额年化12.1%,但收益非完全单调,稳定性不足,为策略增强提供了空间。
4.机器学习因子在国证 2000 内表现稳健:残差、反转、复合因子的分组单调性均优秀,多头组超额年化分别为9%、10.5%、10.8%,其中复合因子最优,其收益核心来自7.22% 的特质选股能力。
5.“合成因子(机器学习复合因子+规模因子)”为最优策略:多头组超额年化达15.4%,单调性显著提升,收益归因中风格贡献5.52%、行业贡献 1.2%、特质选股贡献 8.69%,三大维度均实现提升,做到了收益与稳定性的平衡。
6.国证2000 增强策略资金容量约100亿,100亿以内资金超额收益稳健,200亿资金受流动性冲击影响,收益大幅下滑,适合中大型机构资金布局。