- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
证券研究报告
证券研究报告
目录
前言 1
基于MDA文本分析的因子定义 1
文本数据预处理 1
个股单因子计算与行业因子汇总 2
情感语调因子计算逻辑 2
余弦相似度因子计算逻辑 3
编辑距离相似度因子计算逻辑 5
词典正式度因子计算逻辑 8
由个股因子到行业因子 9
文本因子差分处理 9
部分行业定期报告词云图 9
基于MDA文本分析的行业轮动模型样本内回测 11
样本区间选择 11
调仓周期选择 11
样本内单因子表现 11
情感语调因子:负向 11
余弦相似度变化因子:正向 12
编辑距离相似度变化因子:正向 13
词典正式度变化因子:负向 13
样本内多因子表现 14
基于MDA文本分析的行业轮动模型样本外表现 20
样本区间选择 20
样本外行业轮动模型表现 20
总结和展望 24
本文总结 24
未来展望 25
风险提示 25
证券研究报告
证券研究报告
插图目录
图1中文金融情感词典消极词语与积极词语比例 3
图2数据预处理时剔除的停用词数量占比 4
图3银行行业2024年年报MDA文本词云图 10
图4电子行业2024年年报MDA文本词云图 10
图5情感语调因子样本内分组累计收益 12
图6情感语调因子样本内分组收益 12
图7余弦相似度变化因子样本内分组累计收益 12
图8余弦相似度变化因子样本内分组收益 12
图9编辑距离相似度变化因子样本内分组累计收益 13
图10编辑距离相似度变化因子样本内分组收益 13
图11词典正式度变化因子样本内分组累计收益 14
图12词典正式度变化因子样本内分组收益 14
图13叠加因子样本内分组累计收益 14
图14叠加因子样本内分组收益 14
图15行业轮动模型样本内累计超额收益 15
图16行业轮动模型样本内IC 15
图17样本内行业轮动模型单持仓周期超额收益 17
图18样本内所选行业下期收益位于全行业平均排名 19
图19样本内所选行业下期收益位于全行业前15名次数 19
图20样本内行业轮动模型换手率 19
图21行业轮动模型累计超额收益及最大回撤 20
图22样本外行业轮动模型月度超额收益 21
图23样本外行业轮动模型单持仓周期超额收益 21
图24样本外所选行业下期收益位于全行业平均排名 23
图25样本外所选行业下期收益位于全行业前15名次数 23
表格目录
表1编辑距离算法初始化Lev矩阵示例 7
表2编辑距离算法生成Lev矩阵示例 8
表3样本内行业轮动模型超额收益明细 15
表4样本内各持仓周期优选行业及下期收益排名 18
表5样本外行业轮动模型超额收益统计 21
表6样本外各持仓周期优选行业及下期收益排名 22
证券研究报告
证券研究报告
本研究基于国内上市公司定期报告所披露的管理层讨论与分析(简称:MDA)章节的相关文本信息,利用自然语言处理技术(简称:NLP),将非结构化的文本信息去噪后,通过量化方法转换为结构化数据,在此基础上进一步合成行业层面上具有一定逻辑意义的文本情绪、文本相似度以及文本正式度等量化因子,进而从多因子体系的角度构建行业轮动策略。
前言
管理层讨论与分析是上市公司定期报告中必须披露的重要内容,监管要求上市公司管理层在定期报告中进一步解释和分析公司当期财务报表及附注中的重要信息,并从管理层的角度阐述未来的经营计划以及发展所面临的机遇、挑战和风险。因此MDA对于投资者而言是一个非常有价值的信息来源,投资者可以从中更好地了解一家公司的短期风险、长期潜力以及上市公司对其自身未来的看法,从而做出更加理性的投资决策。
与结构化数据不同的是,MDA信息是文本信息,属于非结构化数据。对其处理之前,首先要用自然语言处理技术进行文本分析,将MDA信息转化为可利用的结构化数据,再从结构化数据中进一步合成量化因子,最终构建量化模型。
如何从海量的文本数据中挖掘出有效的隐藏信息,是处理和使用MDA信息的关键。本文从文本数据的处理、文本特征提取、特征选择到多因子构建,提出一种行之有效的方法。
基于MDA文本分析的因子定义
近年来上市公司MDA信息越来越受到学术领域的关注,众多国内外研究学者围绕MDA文本信息开展研究。研究内容包含文本情感分析、内容相似度、词汇正式度、词汇可读性等多种维度,每一种维度又可以衍生出不同的计算逻辑和算法。而上述处理都依赖于不断更新发展的自然语言处理技术的支撑。
NLP是计算机科学领域与人工智能领域中的一个重要方向,该技术融合语言学、计算机科学以及数学等多种学科知识,旨在实现人
您可能关注的文档
- 银行业资负跟踪:央行万亿回购呵护资金面.docx
- 锂电池行业月报:销量持续增长,短期建议关注.docx
- 银行业跨境流动性跟踪月报:如何理解4月跨境货物贸易净流出幅度加大?.docx
- 阿里影业现场演出与IP衍生高景气,打造现实娱乐平台.docx
- 非银金融行业《推动公募基金高质量发展行动方案》研究学习系列3:新发浮动费率基金深度观察,非对称上下浮动,锚定基准不放松.docx
- 银行业2025年中期策略:业绩压力临近拐点,盈利释放能力强的区域行更优.docx
- 锂电行业2025年中期板块景气度回暖,固态电池、钠电有望迎来规模化应用节点.docx
- 锅圈精耕餐食零售赛道,拓店重启再添万家.docx
- 银行缺负债,为何存单利率仍能下行?.docx
- 银行业投资观察:稳信贷力度预计加强,宽松信号缓和流动性压力.docx
- 金属行业2025半年度展望:弱供给周期下的行业配置属性探讨—工业金属板块高景气度延续.docx
- 金属行业2025半年度展望:供需结构持续改善—小金属板块或显现底部抬升.docx
- 金工稳定战胜基准的主动基金有何特征.docx
- 金工深度研究,LLM-FADT:大模型增强文本选股.docx
- 金融工程定期报告:转债延续周度上涨,有望随权益持续回暖.docx
- 金融工程专题:指数成分股调样规则全解析.docx
- 临界相变,探寻传统因子中的非线性基因.docx
- 通信行业月报:电信运营商收入增速回升,海外算力复苏.docx
- 金工:信用债ETF可回购质押,成交跃升.docx
- 金工基于宏观风险因子的大类资产轮动模型绩效月报.docx
最近下载
- TZS 0678—2025《生物安全实验室工作人员本底血清样本管理规范》(水印版).pdf VIP
- 2025年工会基础知识考试题库及参考答案(通用版).pptx VIP
- 抗菌药物的合理使用课件(共37张PPT).pptx VIP
- 急危重症患者护理抢救流程与规范.pptx VIP
- 平衡梁组件的承压检测装置.pdf VIP
- 2025年最新工会基础知识考试题库及参考答案(通用版).pptx VIP
- 44-无机复合聚苯不燃保温板应用技术规程T_CIEEMA002-2020.pptx VIP
- 供货方案及质量保证措施 .docx VIP
- 殡葬领域突出问题专项整治行动实施方案.docx VIP
- T_ACEF 207—2025(工业有机废气收集系统技术规范).pdf
文档评论(0)