基于价量数据的排序学习选股模型.docxVIP

下载本文档

7
0
约1.81万字
约 22页
2023-10-17 发布于北京
举报
版权申诉

基于价量数据的排序学习选股模型.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

目录一、什么是排序学习？ 5 （一）排序学习的背景 5 （二）排序学习的特殊之处 5 二、排序学习算法演变 5 （一）RankNet 介绍 5 1、概率损失函数 6 （二）LambdaRank 介绍 6 1、对RankNet 算法的加速 6 2、梯度函数λ的选取 8 （三）LambdaMart 介绍 8 1、对Mart 的介绍 8 2、LambdaMart 公式推导 9 3、LambdaMart 算法流程 10 三、排序学习选股模型 10 （一）LGBMRanker 简介 10 （二）选股模型设计 11 1、股票池 11 2、特征选择 11 3、标签选择 13 4、训练方法 13 5、回测结果 13 四、总结 19 五、风险提示 20 图表目录图表 1 特征表 12 图表 2 训练方法 13 图表 3 LGBMRanker 选股策略净值图 14 图表 4 LGBMRanker 选股策略对比指数净值图 14 图表 5 策略表现 15 图表 6 胜率表现 15 图表 7 分年度收益率统计 15 图表 8 今年以来月度收益率统计 16 图表 9 行业分布占比(%) 16 图表 10 市值分布占比(%) 17 图表 11 最新信号 17 图表 12 LGBMRanker 选股策略 9 月份走势（截至 19 一、什么是排序学习？（一）排序学习的背景随着数字时代的来临，社会信息化程度的不断加深，互联网上承载的信息量呈指数级增长。想要在海量的数据中检索到自己需要的信息或者想要提高用户的需求与信息之间的匹配程度，就会涉及到排序问题。排序问题，简单来说就是如何从信息膨胀下的数据洪流中便捷地检索出用户最感兴趣的结果，重要性不言而喻，同时也引起了学术界和工业界的广泛关注与研究。与此相关的推荐系统在过去十几年的时间里取得了长足的发展并普遍运用于搜索、推荐、广告等各个领域。而处理排序问题的方法不同也会产生不同的推荐系统，同样的关键词，一个搜索引擎可以让用户在搜索结果的前几页就快速找到想要的信息，而另外一个搜索引擎则无法做到，或者经常浏览的两个软件，一个总能推送出用户最新最感兴趣的内容，而另一个只能生硬的根据用户所选的标签静态的匹配内容，这些显著的差异就是因为其核心的推荐算法不同。 “排序学习”（Learning to Rank，LTR）又名“机器排序学习”（Machine-learned Ranking），顾名思义是使用机器学习用于解决分类与回归问题的方法，来解决排序问题。通过机器学习算法在数据集上对大量的特征进行训练，构建出排序模型，让其能够依据数据的相关性、重要性等衡量指标对数据进行排序，从而满足用户的需求。（二）排序学习的特殊之处相比于传统的分类和回归模型，排序学习有着一些显著的不同之处。首先，排序学习关注的是多个对象之间的相对排序关系，而不是单个对象的分类或回归问题。其次，由于排序学习需要处理多个对象的排序信息，所以排序学习模型通常更加复杂，需要考虑对象之间的交互信息和排序关系。其他机器学习方法通过对一系列数据进行训练，并不断优化迭代从而得到一个预测模型，再把验证数据一个一个放到预测模型中，生成其对应的预测值再加以利用，最终目的是要降低预测值与真实值之间的差异来达到精确预测。而排序学习训练集是以（q，D）的形式输入模型，其中 q 为 query 查询，对于每一个查询 query q，我们由 n 个文档 D = {d1,d2,…,dn}，n=1，以此作为模型的参数并让模型对其进行排序，然后根据真实排序与预测排序衡量排序效果，再以提升排序效果为目的不断优化迭代。由此可以看出，排序学习中使用的评估指标也不同于传统的分类和回归任务。对于排序学习而言，传统分类和回归任务中使用的评估指标如准确率、均方误差等都不再适用，而常用的排序学习评估指标包括 Normalized Discounted Cumulative Gain (NDCG)，则用于度量模型在对象排序上的性能。二、排序学习算法演变（一）RankNet 介绍 RankNet 是一种 pairwise 的排序学习方法，基于配对文档相对排序的概率损失，用成对的数据训练神经网络。 1、概率损失函数假设????和????是查询????下的两个文档，????和????的特征向量分别是????和????，有???? = ??(????)，???? = ??(????)，?????? = ???? ? ????，其中??是得分函数，分数越高，可推断文档的排名越靠前。???? ? ????表示第 i 个文档排在第j 个文档的前面，???? ? ????的预测概率为： 1 ??