第十一章05课件讲解.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第十一章汇报人:人工智能专业聚类算法概述与原理

2所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法,属于无监督学习方法。这个方法要保证同一类的数据有相似的特征。图9-1原始数据图9-2聚类结果根据样本之间的距离或者说是相似性(亲疏性),把较相似、差异较小的样本聚成一类(簇),最后形成多个类(簇),使同一个类(簇)内部的样本相似度高,不同类(簇)之间差异性高11.1聚类任务

3聚类(clustering)属于无监督学习,是机器学习的三大任务之一,其应用领域非常广泛。在商业中,聚类常用于发现不同的客户群体并刻画其特征;在生物中,聚类常用于基因分类,获取对种群固有结构的认识;在医学、交通及军事等领域中,聚类常作为图像分割(利用图像的灰度、颜色、纹理和形状等特征,将图像分割成若干个特定的、互不相交的、具有独特性质的区域)的支撑技术,用于提取特定内容。11.1聚类任务

4下面通过一个简单的例子来说明k-means算法的过程。现将样本点聚类成3个类别,如图所示。下面通过一个简单的例子来说明k-means算法的过程。现将样本点聚类成3个类别,如图所示。11.1聚类任务

5聚类是一种寻找数据之间内在分布结构的技术。聚类是指根据某种特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇中的数据对象的相似性尽可能大,不同簇中的数据对象的差异性尽可能大,即聚类后同类数据尽可能聚到一起,不同类数据尽可能分离。指点迷津聚类任务仅能自动形成簇结构,每个簇所对应的概念语义需由使用者自行定义。聚类既可作为一个单独过程来寻找数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。例如,在一些商业应用中,经常需要对新用户的类型进行判别,但直接定义“用户类型”往往是存在困难的,此时可先对用户数据进行聚类,根据聚类结果将每个簇定义为一个类(为用户数据打标签),然后再基于这些类训练分类模型,即可预测新用户的类别。11.1.1聚类的概念

6聚类是将差异性较小的样本聚为一类,将差异性较大的样本聚为不同类的过程。在聚类任务中,通常使用距离作为样本之间差异性的度量标准。距离越近,越“亲密”,距离越远,越“疏远”。11.1.2距离度量

7(1)在实际应用中,数据可分为连续型数据和离散型数据两大类。连续型数据指任意两个数据之间可细分出无限多个值,如人的身高;离散型数据指任何两个数据之间的数值个数是有限的,如产品的等级。(2)在统计学中,数据又可分为3种类型,分别是定类数据、定序数据和定距数据。定类数据表示个体在属性上的特征或类别值仅是一种标志,没有顺序关系,如将性别“男”编码为1,性别“女”编码为0;定序数据表示个体在某个有序状态中所处的位置,不能直接做四则运算,如“受教育程度”是有顺序的,可定义为初中=3、高中=4、大学=5;定距数据是具有间距特征的变量,如温度。在机器学习中,需要将所有的属性值都统一用数值表示,其中,定距数据本身就是数值,无须转换,对应连续型数据;定类数据和定序数据需要通过编码转换为连续型数据。连续型数据和离散型数据的距离计算方法是不同的。1.数据的类型11.1.2距离度量

8数据集中的每个样本都可以看作是多维空间中的一个点,故样本之间的距离就可转换成n维空间中点与点之间的距离。假设空间中有两点和,和分别表示点和在某一维度上的取值,则常用的计算两点之间距离的方法有如下几个。2.连续型数据的距离度量方法11.1.2距离度量

9(1)欧式距离是直角坐标系中最常用的距离度量方法,是空间中两点之间的直线距离,其公式为(2)曼哈顿距离是把两点之间的每个维度的距离的绝对值相加得到的距离,其公式为(3)切比雪夫距离是取两点之间各个维度的距离的最大值,其公式为2.连续型数据的距离度量方法11.1.2距离度量

10离散型数据的距离通常使用简单匹配系数来度量,简单匹配系数的描述如下。假设i和j为两个样本,都由n个二元属性(取值为0或1)组成,这两个样本进行比较,可得到4个量,即样本i与样本j的属性值同时取1的属性个数,用a表示;样本i的值取1,样本j的值取0的属性个数,用b表示;样本i的值取0,样本j的值取1的属性个数,用c表示;样本i与样本j的属性值同时取0的属性个数,用d表示,则简单匹配系数的公式为显然,简单匹配系数的值越小,说明两个个体越相似。3.离散型数据的距离度量方法11.1.2距离度量

11(1)原型聚类亦称“基于原型的聚类”,在实际聚类任务中经常使用。此类聚类算法假设聚类结构能通过一组原型(原型指样本空间中具有代表性的点)刻画。通常情形下,算法先对原型进行初始化,然后对原型进行迭代更新求解,其代表算法为k均值聚类算法、高斯混合聚类算法等。(2)层次聚类试

您可能关注的文档

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档