数据模式探索,无监督学习案例.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
正文目录 无监督学习 3 流形学习 4 流形学习简介 4 流形学习案例一:S 型三维数据降维 5 流形学习案例二:手写体数字降维 5 流形学习案例三:使用 t-SNE 进行基金收益率降维和可视化 7 聚类 9 聚类算法简介 9 聚类算法案例:基于股票产业概念的聚类 10 无监督学习应用于因子投资——PCA 算法准确估计因子溢价 15 论文:Asset Pricing with Omitted Factors 15 总结 18 风险提示 18 附录:聚类评价指标原理 19 图表目录 图表 1: 无监督学习及其应用案例 3 图表 2: 三维空间中的瑞士卷 4 图表 3: S 型三维数据降维图 5 图表 4: 手写数字数据集 6 图表 5: 手写数字降维图 1 6 图表 6: 手写数字降维图 2 7 图表 7: 偏股混合型基金收益率降维图 8 图表 8: 偏股混合型基金组 1 净值 8 图表 9: 偏股混合型基金组 2 净值 8 图表 10: 聚类算法对比 9 图表 11: 球形簇和非球形簇的聚类结果 10 图表 12: 沪深 300 成分股聚类评价指标 11 图表 13: 中证 500 成分股聚类评价指标 11 图表 14: 沪深 300 成分股层次聚类图 11 图表 15: 中证 500 成分股层次聚类图 12 图表 16: 沪深 300 成分股层次聚类簇概念词云(聚成 9 类) 12 图表 17: 中证 500 成分股层次聚类簇概念词云(聚成 9 类) 13 图表 18: 沪深 300 层次聚类 13 图表 19: 中证 500 层次聚类 14 图表 20: 因子溢价估计结果 16 无监督学习 机器学习模型可分为监督学习和无监督学习,二者的主要区别在于模型训练过程中是否需 要标注数据( 标签) 。 华泰金工人工智能系列的前期报告( 系列 2~ 系列 29 ,20200319)介绍了大量和监督学习相关的内容。在实际应用中,也可能会存在以下情况导致我们无法使用监督学习模型: 标签难以获取。 问题关注的是数据本身内部的结构,不需要标签的参与。此时无监督学习模型就会有用武之地。 如图表 1 所示,按照 sklearn 的分类,无监督学习可以分为以下三个领域: 流形学习:通过非线性降维的手段将复杂的高维数据映射到低维,对于可视化数据内部结构很有帮助。本文将介绍使用流形学习对基金收益率降维和可视化的案例。 聚类:通过给定样本的特征或相似度来挖掘样本之间的内在联系。本文将介绍对股票产业概念进行聚类的案例。 矩阵分解:将矩阵拆解为数个矩阵的乘积从而提取矩阵内部隐含的信息,被用于数据降维、推荐算法中。本文将介绍借助 PCA 准确估计因子溢价的案例。 图表1: 无监督学习及其应用案例 资料来源: 流形学习 流形学习简介 流形学习(manifold learning)是一类借鉴了拓扑流形概念的降维方法。流形学习的思想认为, 我们所能够观察到的数据是由一个低维流形映射到高维空间上去的。由于数据内部特征的限制,一些高维空间中的数据存在冗余,实际上只需要用更低的维度就能唯一地表示。一个经典的说明流形学习思想的例子是三维空间中的瑞士卷。 图表2: 三维空间中的瑞士卷 资料来源: 如上图所示,瑞士卷曲面上的点能用三维坐标 P(x, y, z)来确定,但实际上瑞士卷可以在二维平面展开,得到一个维度更低的流形空间,这说明使用三维空间刻画瑞士卷存在冗余。高维空间中的冗余可能会造成两个后果: 维度灾难:维度灾难使得要研究的问题变得复杂,也会消耗更多计算资源。 测量误差:以瑞士卷曲面上圈出的两个点为例,在流形空间(把瑞士卷展开)上两个点的距离(红色的线)很远,但是用三维空间的欧氏距离来计算它们的距离则要近得多。可见,如果我们观察到的数据本质是一个二维流形,却使用三维空间来刻画,那么采用欧氏距离可能会有测量误差。流形空间上点之间距离可以用欧氏距离测量,不代表低维流形所展开的高维空间中也可以使用欧氏距离测量,只有在流形空间中使用欧氏距离才有意义。 流形学习被设计来解决以上问题。流形空间中的“流形”是在局部与欧氏空间同胚的空间, 换言之,流形在局部具有欧氏空间的性质,能用欧氏距离来进行距离计算。若将低维流形嵌入到高维空间中,数据样本在高维空间的分布虽然看上去非常复杂,但在局部仍具备欧氏空间的性质。如图表2 中圈出两点的距离,可以近似等于红线上的点构成的折线的长度, 即多段欧氏距离的总和。可以说,流形学习的思想是在局部建立降维映射关系,然后再设法将局部映射关系推广到全局。因此流形学习的主要应用之一是非线性降维,在降维的空间中不仅考虑到了距离,更考虑到了生成数据的拓扑结构。相比于 PCA 这样的线性降维

文档评论(0)

535600147 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档