金融工程2025年中期策略：文本分析之自然语言处理——基于MD%26A文本信息的行业轮动策略.docx

下载文档

21
0
约1.92万字
约 27页
2025-06-21 发布于北京
举报
版权申诉
保障服务

金融工程2025年中期策略：文本分析之自然语言处理——基于MD%26A文本信息的行业轮动策略.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

证券研究报告

前言 1

基于MDA文本分析的因子定义 1

文本数据预处理 1

个股单因子计算与行业因子汇总 2

情感语调因子计算逻辑 2

余弦相似度因子计算逻辑 3

编辑距离相似度因子计算逻辑 5

词典正式度因子计算逻辑 8

由个股因子到行业因子 9

文本因子差分处理 9

部分行业定期报告词云图 9

基于MDA文本分析的行业轮动模型样本内回测 11

样本区间选择 11

调仓周期选择 11

样本内单因子表现 11

情感语调因子：负向 11

余弦相似度变化因子：正向 12

编辑距离相似度变化因子：正向 13

词典正式度变化因子：负向 13

样本内多因子表现 14

基于MDA文本分析的行业轮动模型样本外表现 20

样本区间选择 20

样本外行业轮动模型表现 20

总结和展望 24

本文总结 24

未来展望 25

风险提示 25

证券研究报告

插图目录

图1中文金融情感词典消极词语与积极词语比例 3

图2数据预处理时剔除的停用词数量占比 4

图3银行行业2024年年报MDA文本词云图 10

图4电子行业2024年年报MDA文本词云图 10

图5情感语调因子样本内分组累计收益 12

图6情感语调因子样本内分组收益 12

图7余弦相似度变化因子样本内分组累计收益 12

图8余弦相似度变化因子样本内分组收益 12

图9编辑距离相似度变化因子样本内分组累计收益 13

图10编辑距离相似度变化因子样本内分组收益 13

图11词典正式度变化因子样本内分组累计收益 14

图12词典正式度变化因子样本内分组收益 14

图13叠加因子样本内分组累计收益 14

图14叠加因子样本内分组收益 14

图15行业轮动模型样本内累计超额收益 15

图16行业轮动模型样本内IC 15

图17样本内行业轮动模型单持仓周期超额收益 17

图18样本内所选行业下期收益位于全行业平均排名 19

图19样本内所选行业下期收益位于全行业前15名次数 19

图20样本内行业轮动模型换手率 19

图21行业轮动模型累计超额收益及最大回撤 20

图22样本外行业轮动模型月度超额收益 21

图23样本外行业轮动模型单持仓周期超额收益 21

图24样本外所选行业下期收益位于全行业平均排名 23

图25样本外所选行业下期收益位于全行业前15名次数 23

表格目录

表1编辑距离算法初始化Lev矩阵示例 7

表2编辑距离算法生成Lev矩阵示例 8

表3样本内行业轮动模型超额收益明细 15

表4样本内各持仓周期优选行业及下期收益排名 18

表5样本外行业轮动模型超额收益统计 21

表6样本外各持仓周期优选行业及下期收益排名 22

证券研究报告

本研究基于国内上市公司定期报告所披露的管理层讨论与分析（简称：MDA）章节的相关文本信息，利用自然语言处理技术（简称：NLP），将非结构化的文本信息去噪后，通过量化方法转换为结构化数据，在此基础上进一步合成行业层面上具有一定逻辑意义的文本情绪、文本相似度以及文本正式度等量化因子，进而从多因子体系的角度构建行业轮动策略。

前言

管理层讨论与分析是上市公司定期报告中必须披露的重要内容，监管要求上市公司管理层在定期报告中进一步解释和分析公司当期财务报表及附注中的重要信息，并从管理层的角度阐述未来的经营计划以及发展所面临的机遇、挑战和风险。因此MDA对于投资者而言是一个非常有价值的信息来源，投资者可以从中更好地了解一家公司的短期风险、长期潜力以及上市公司对其自身未来的看法，从而做出更加理性的投资决策。

与结构化数据不同的是，MDA信息是文本信息，属于非结构化数据。对其处理之前，首先要用自然语言处理技术进行文本分析，将MDA信息转化为可利用的结构化数据，再从结构化数据中进一步合成量化因子，最终构建量化模型。

如何从海量的文本数据中挖掘出有效的隐藏信息，是处理和使用MDA信息的关键。本文从文本数据的处理、文本特征提取、特征选择到多因子构建，提出一种行之有效的方法。

基于MDA文本分析的因子定义

近年来上市公司MDA信息越来越受到学术领域的关注，众多国内外研究学者围绕MDA文本信息开展研究。研究内容包含文本情感分析、内容相似度、词汇正式度、词汇可读性等多种维度，每一种维度又可以衍生出不同的计算逻辑和算法。而上述处理都依赖于不断更新发展的自然语言处理技术的支撑。

NLP是计算机科学领域与人工智能领域中的一个重要方向，该技术融合语言学、计算机科学以及数学等多种学科知识，旨在实现人