量化投资中因子正交化的方法与效果.docxVIP

下载本文档

0
0
约8.29千字
约 16页
2026-01-03 发布于上海
举报
版权申诉

量化投资中因子正交化的方法与效果.docx

此“经济”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

量化投资中因子正交化的方法与效果

一、因子正交化的核心逻辑：解决因子相关性的“信号重叠”问题

在量化投资的世界里，因子是捕捉市场规律的“信号探针”——比如估值因子（PE、PB）反映资产的便宜程度，成长因子（营收增速、净利润增速）反映企业的扩张能力，动量因子（过去6个月涨幅）反映市场的趋势惯性。但现实中，这些因子往往不是“独立”的：高成长的企业可能同时有高PE（估值贵），动量强的股票可能刚好处于估值修复周期——这种“信号重叠”会让多因子模型陷入三个困境：重复计算信息（比如成长因子里藏着估值的影子，模型会把同一逻辑算两次）、过拟合风险（相关因子会放大样本内的噪音）、业绩归因模糊（赚了钱不知道是成长还是估值的贡献）。

因子正交化，本质上是一种“信号提纯术”——通过数学处理让因子之间的线性相关性降到极低（甚至为零），把每个因子的“专属信息”从“重叠信息”中剥离出来。比如，原本成长因子里可能混着估值的影响，正交化后，成长因子就变成了“不依赖估值的纯成长信号”；动量因子里的估值干扰被剔除后，就成了“纯趋势信号”。它的核心目标，是让每个因子都能“独当一面”，既不抢其他因子的“戏份”，也不被其他因子“掩盖”。

（一）因子相关性的危害：从“信号拥挤”到“模型失效”

要理解正交化的价值，得先看清因子相关性的三大危害：

第一是信号拥挤。当多个因子共享同一逻辑时，市场参与者会集体押注类似的策略（比如大家都买“低PE+高成长”的股票），导致因子收益快速衰减——就像一条窄路挤了太多人，原本的“捷径”变成“堵点”。比如2020年前后，市场集体追逐“高成长+低估值”的“核心资产”，但这些股票的成长因子和估值因子高度相关，最终在2021年出现集体下跌，就是典型的“相关因子拥挤崩溃”。

第二是模型过拟合。相关性高的因子会让模型“过度依赖”某一类逻辑。比如，如果成长因子和盈利因子相关度达0.7，模型会把“盈利好”的信号误判为“成长强”，当市场风格切换（比如盈利好但成长停滞的股票下跌），模型就会失效。某量化团队曾做过测试：用未正交的“成长+盈利”因子构建模型，样本内年化收益15%，但样本外仅5%——问题就出在两个因子的重叠信息放大了样本内的噪音。

第三是归因混乱。当因子相关时，你永远搞不清“赚的钱到底来自哪里”。比如，某组合赚了20%，你以为是成长因子的贡献，但实际上是成长因子里的估值信息在起作用——这种“模糊归因”会让投资决策失去方向，无法优化因子权重或调整策略。

（二）因子正交化的定义：让每个因子只说“自己的故事”

简单来说，因子正交化就是通过剥离因子间的线性关联，让每个因子的“输出”不再包含其他因子的信息。比如，假设我们有两个因子：A（估值因子，PE倒数）和B（成长因子，营收增速）。如果直接用这两个因子，会发现B里藏着A的影子——高营收增速的企业往往PE也高（即A因子值低）。正交化的过程，就是把B里的“A成分”“刮掉”：我们把B对A做回归（相当于用A解释B的变化），剩下的“残差”就是不依赖A的纯成长因子。这个残差和A的相关性几乎为零，意味着它只反映“营收增速中，和估值无关的部分”——比如，同样是PE=30的企业，有的营收增速5%，有的增速20%，残差就会把这20%的“超预期成长”单独拎出来。

从逻辑上看，正交化的核心是尊重因子的“独立性假设”——多因子模型的前提是“每个因子贡献独立的收益”，如果因子不独立，这个前提就不成立。正交化不是“创造新因子”，而是“还原因子的本真面目”。

二、因子正交化的常用方法：从“简单剥离”到“系统处理”

了解了正交化的逻辑，接下来需要掌握具体的实现路径。不同的方法适用于不同的场景，它们的核心差异在于处理多个因子时的顺序逻辑和对因子意义的保留程度。

（一）残差法：最基础的“一对一”正交工具

残差法是最常用、最易理解的正交化方法，本质是“用一个因子‘过滤’另一个因子”。操作步骤很简单：假设我们要让因子X正交于因子Y（即去掉X里的Y信息），只需把X作为“因变量”、Y作为“自变量”做线性回归，取回归后的残差作为新的X因子。这个残差就是X中“不被Y解释的部分”，自然和Y线性无关。

比如，某量化策略想让“成长因子”（X）正交于“估值因子”（Y），就把所有股票的成长因子值对估值因子值做回归——比如，回归方程会告诉我们“PE每降低1倍，营收增速平均提高2%”。然后，每个股票的成长因子残差=实际成长值-（回归方程预测的成长值）。这样，残差为正的股票，说明其成长速度“超过了估值对应的预期”（比如PE=30但营收增速20%，而同类PE的股票平均增速15%）；残差为负的股票，则是“成长低于估值预期”。

残差法的优势在于保留因子的经济意义——新的成长因子依然能解释“企业的成长能力”，只是去掉了估值的干扰。但它的局限也很明显：只能处理“一对一”的正交，如果有

您可能关注的文档

文档评论（0）

180****5323 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

量化投资中因子正交化的方法与效果.docxVIP