大学课程《机器学习与经济学实证应用》PPT课件:第6讲_无监督学习.pptxVIP

大学课程《机器学习与经济学实证应用》PPT课件:第6讲_无监督学习.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1第6讲无监督学习

主要内容2无监督学习概述聚类降维LDA主题模型

主要内容3无监督学习概述聚类降维LDA主题模型

无监督学习概述4有监督学习算法回顾线性OLS回归、logit回归、probit回归正则化回归(Lasso回归、岭回归)KNN近邻算法朴素贝叶斯算法决策树算法支持向量机算法随机森林算法提升树算法

无监督学习概述5无监督学习与有监督学习有监督(supervised)学习训练集中每个样本都有一个类别标记所有类别事先已知常用于:分类、回归无监督(unsupervised)学习训练集中样本的类别标记未知(或已知但未使用)给定一组样本,发现其内在性质,如类别和聚类常用于:聚类、降维

无监督学习概述6无监督学习的动机收集并且标记大量样本往往花费巨大希望首先在一个较小的有标记样本集上训练一个粗略的分类器,然后让这个分类器以非监督的方式在一个较大的样本集上运行或者,用大量未标记的样本集来训练分类器,让它自动发现数据中的分组,然后用代价更高的办法(如人工)来标记这些分组在很多应用中,模式的特征会随时间变化如果这种特征的变化能够被某种运行在无监督方式下的分类器捕捉到,那么分类性能将得到大幅提高

无监督学习概述7无监督学习的动机无监督方法可以用来提取特征,或者预处理现存特征,从而为后续的模式识别问题做准备例如:PCA降维在任何探索性的工作中,无监督方法可以揭示观测数据的一些内部结构和规律发现模式中内在的聚类或分组可能为分类器设计提供依据

无监督学习概述8无监督学习与有监督学习方法的区别有监督学习方法必须有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律;而无监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。有监督学习方法的目的是识别事物,识别的结果表现在给待识别数据加上了标号。因此训练样本集必须由带标号样本组成;而无监督学习方法只有分析数据集本身,无标号。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不以与某种预先的分类标号为目的。无监督学习方法在寻找数据集中的规律性,这种规律性不是划分数据集的目的,即不一定要“分类”。比如分析数据的主分量,或分析数据集的特点。

无监督学习概述9无监督学习的应用一家广告平台需要根据相似的人口学特征和购买习惯将人口分成不同的小组,以便广告客户可以通过有关联的广告接触到他们的目标客户。Airbnb需要将自己的房屋清单分组成不同的社区,以便用户能更轻松地查阅这些清单。一个数据科学团队需要降低一个大型数据集的维度的数量,以便简化建模和降低文件大小。学校期刊数据库需要将一千篇署名作者为Guo,F.的学术论文分给不同作者新闻报道(央行会议稿、议会议员发言稿等)划分为不同的主题

主要内容10无监督学习概述聚类降维LDA主题模型

聚类11聚类的定义聚类是指将对象自然分组,使得每组由相似的对象构成一类的过程因为训练集样本并无类别标记,所以聚类是无监督学习过程一个聚类(cluster)是指一组样本,它们与属于同一聚类的样本相似,而与属于其他聚类的样本不相似聚类可用作一种独立的数据分析工具,用于分析数据的内在特性;或一种数据预处理方法,为后续模式识别服务

聚类12聚类问题的描述

聚类13聚类问题的描述聚类问题:根据给定的数据集,要求寻找T上的一个“好”的划分(划分成m个类;m可以是已知的,也可以是未知的),满足约束条件:

聚类14相似性度量“同一聚类内部的样本之间比不同聚类的样本之间更相似”是聚类的基本假设。相似性度量:基于某种定义,描述样本间相似(或不相似)程度的度量几种主要的相似性(不相似性)度量基于度量的距离标准非度量的相似性函数匹配测度

聚类15相似性度量根据距离对样本进行聚类计算任意两个样本之间的距离如果两个样本之间的距离小于某个阈值d0,那么这两个样本就属于同一个聚类d0过大,所有样本都被分为同一个聚类d0过小,每个样本都自成一个聚类

聚类16常用的距离度量最为常用的距离度量为欧氏距离其次为考虑数据分布的马氏距离点对称距离流形距离

聚类17基于欧氏距离的聚类d0越小,每个聚类就越小,聚类个数就越多

聚类18非度量的相似性函数更一般地,可以不用距离,而引入非度量的相似性函数来比较两个向量。相似性函数必须满足:对称性:当两个样本具有某种相似性时,函数的值较大常用的相似性函数:归一化内积(两个向量夹角的余弦)

聚类19聚类的准则函数何谓好的聚类?聚类内部相似度高,聚类之间相似度低聚类结果的质量取决于采用的相似度度量以及聚类算法的具体实现评价聚类结果的好坏往往具有主观性!

聚类20聚类的准则函数聚类的准则函数:判断“一种聚类的划分比另一种划分好”的依据,采用不同的准则函数可能得到不同的聚类结果。聚类问题可以看做一种离散

您可能关注的文档

文档评论(0)

专业写作专家 + 关注
实名认证
服务提供商

人力资源管理师持证人

专注于企业方案、制度、报告、总结、规划编制,PPT制作等

领域认证该用户于2023年09月21日上传了人力资源管理师

1亿VIP精品文档

相关文档