- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第十一章汇报人:人工智能专业聚类算法概述与原理
2所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法,属于无监督学习方法。这个方法要保证同一类的数据有相似的特征。图9-1原始数据图9-2聚类结果根据样本之间的距离或者说是相似性(亲疏性),把较相似、差异较小的样本聚成一类(簇),最后形成多个类(簇),使同一个类(簇)内部的样本相似度高,不同类(簇)之间差异性高11.1聚类任务
3聚类(clustering)属于无监督学习,是机器学习的三大任务之一,其应用领域非常广泛。在商业中,聚类常用于发现不同的客户群体并刻画其特征;在生物中,聚类常用于基因分类,获取对种群固有结构的认识;在医学、交通及军事等领域中,聚类常作为图像分割(利用图像的灰度、颜色、纹理和形状等特征,将图像分割成若干个特定的、互不相交的、具有独特性质的区域)的支撑技术,用于提取特定内容。11.1聚类任务
4下面通过一个简单的例子来说明k-means算法的过程。现将样本点聚类成3个类别,如图所示。下面通过一个简单的例子来说明k-means算法的过程。现将样本点聚类成3个类别,如图所示。11.1聚类任务
5聚类是一种寻找数据之间内在分布结构的技术。聚类是指根据某种特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇中的数据对象的相似性尽可能大,不同簇中的数据对象的差异性尽可能大,即聚类后同类数据尽可能聚到一起,不同类数据尽可能分离。指点迷津聚类任务仅能自动形成簇结构,每个簇所对应的概念语义需由使用者自行定义。聚类既可作为一个单独过程来寻找数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。例如,在一些商业应用中,经常需要对新用户的类型进行判别,但直接定义“用户类型”往往是存在困难的,此时可先对用户数据进行聚类,根据聚类结果将每个簇定义为一个类(为用户数据打标签),然后再基于这些类训练分类模型,即可预测新用户的类别。11.1.1聚类的概念
6聚类是将差异性较小的样本聚为一类,将差异性较大的样本聚为不同类的过程。在聚类任务中,通常使用距离作为样本之间差异性的度量标准。距离越近,越“亲密”,距离越远,越“疏远”。11.1.2距离度量
7(1)在实际应用中,数据可分为连续型数据和离散型数据两大类。连续型数据指任意两个数据之间可细分出无限多个值,如人的身高;离散型数据指任何两个数据之间的数值个数是有限的,如产品的等级。(2)在统计学中,数据又可分为3种类型,分别是定类数据、定序数据和定距数据。定类数据表示个体在属性上的特征或类别值仅是一种标志,没有顺序关系,如将性别“男”编码为1,性别“女”编码为0;定序数据表示个体在某个有序状态中所处的位置,不能直接做四则运算,如“受教育程度”是有顺序的,可定义为初中=3、高中=4、大学=5;定距数据是具有间距特征的变量,如温度。在机器学习中,需要将所有的属性值都统一用数值表示,其中,定距数据本身就是数值,无须转换,对应连续型数据;定类数据和定序数据需要通过编码转换为连续型数据。连续型数据和离散型数据的距离计算方法是不同的。1.数据的类型11.1.2距离度量
8数据集中的每个样本都可以看作是多维空间中的一个点,故样本之间的距离就可转换成n维空间中点与点之间的距离。假设空间中有两点和,和分别表示点和在某一维度上的取值,则常用的计算两点之间距离的方法有如下几个。2.连续型数据的距离度量方法11.1.2距离度量
9(1)欧式距离是直角坐标系中最常用的距离度量方法,是空间中两点之间的直线距离,其公式为(2)曼哈顿距离是把两点之间的每个维度的距离的绝对值相加得到的距离,其公式为(3)切比雪夫距离是取两点之间各个维度的距离的最大值,其公式为2.连续型数据的距离度量方法11.1.2距离度量
10离散型数据的距离通常使用简单匹配系数来度量,简单匹配系数的描述如下。假设i和j为两个样本,都由n个二元属性(取值为0或1)组成,这两个样本进行比较,可得到4个量,即样本i与样本j的属性值同时取1的属性个数,用a表示;样本i的值取1,样本j的值取0的属性个数,用b表示;样本i的值取0,样本j的值取1的属性个数,用c表示;样本i与样本j的属性值同时取0的属性个数,用d表示,则简单匹配系数的公式为显然,简单匹配系数的值越小,说明两个个体越相似。3.离散型数据的距离度量方法11.1.2距离度量
11(1)原型聚类亦称“基于原型的聚类”,在实际聚类任务中经常使用。此类聚类算法假设聚类结构能通过一组原型(原型指样本空间中具有代表性的点)刻画。通常情形下,算法先对原型进行初始化,然后对原型进行迭代更新求解,其代表算法为k均值聚类算法、高斯混合聚类算法等。(2)层次聚类试
您可能关注的文档
- 第三章第二节平面机构的组成平面机构自由度的计算97课件讲解.pptx
- 第三章电子商务主要的商业模式白东蕊主编人民邮电出版社出版电子商务基础附微课第4版69课件讲解.pptx
- 第三章机构自由度的计算平面机构自由度的计算71课件讲解.pptx
- 第三章精细与精准NURBS建模的艺术49课件讲解.pptx
- 第三章平面机构自由度的计算28课件讲解.pptx
- 第三章平面机构自由度的计算43课件讲解.pptx
- 第三章平面机构自由度的计算53课件讲解.pptx
- 第三章平面机构自由度的计算60课件讲解.pptx
- 第三章数据清洗与高阶处理46课件讲解.pptx
- 第三章医学伦理学的基础理论与规范体系65课件讲解.pptx
- 第十一章现代医学科学发展中的伦理问题50课件讲解.pptx
- 第十一章轴承和联轴器07课件讲解.pptx
- 第十一章轴承和联轴器第一节轴承的分类和结构24课件讲解.pptx
- 第十章第三节轴的结构设计10课件讲解.pptx
- 第十章跨境电商白东蕊主编人民邮电出版社出版电子商务基础附微课第4版25课件讲解.pptx
- 第十章农村电商电子商务基础附微课第4版白东蕊主编人民邮电出版社出版86课件讲解.pptx
- 第四节Maya曲线编辑器的介绍动漫动漫82课件讲解.pptx
- 第四节剪辑3音响剪辑音响可以理解为除了语言音乐之外影片中其他声音的总称音响与语言音乐在微电影作品中是相互交替补充呼应互为结合共同表真表意表情的无论在技术还是艺术上音响都起到烘托影片气氛的作用微电影作品中的音响包括客观性音响和主观性音响两种前者重在写实而后者重在写意因此对剪辑的要求也不尽相同93课件讲解.pptx
- 第四节剪辑二声音剪辑微电影作品的声音元素可以分为语言音乐和音响三个方面的内容在微电影或者说在所有的影视艺术中声音剪辑是为影片内容表达服务的1语言剪辑语言是故事性微电影作品重要的组成部分在微电影中语言更多地表现为对话对话处理得好坏直接影响到人物性格的表现情节的推动作品的节奏感最终影响作品的可看性有对话的段落其剪辑任务包括两大块内容一是对话时场景的分切二是对话的剪辑46课件讲解.pptx
- 第四节剪辑一微电影剪辑常用软件现在市场上常用的后期剪辑软件有很多主流软件有国产的非编系统大洋索贝系统有国外的非编系统及软件Canopus公司的EduisAvid公司的AvidXpressProAdobe公司的AdobePremierePro还有苹果公司的FinalCutStudio高标清制作系统这些系统和软件在各自的领域都展现出了独特的优势54课件讲解.pptx
最近下载
- 医院创伤中心建设实施方案.docx VIP
- 大班幼儿劳动教育的开展现状及对策研究——以石家庄市A幼儿园为例--重13.61%_AIGC8.67%-18818字.docx
- 我的家乡朔州.ppt VIP
- 隧道结构分析软件:GeoStudio二次开发all.docx VIP
- 高中物理--自由落体运动说课.ppt VIP
- 2025年江苏护理职业学院单招笔试职业技能考核试题库含答案解析.docx VIP
- ZD6型电动转辙机检修铁路信号基础设备维护22课件.pptx VIP
- 英语建议信教学课件.ppt VIP
- NDS3107D 调频频段数字音频广播复用器使用说明书 .pdf VIP
- 护士执业注册证明事项告知承诺书.docx VIP
原创力文档


文档评论(0)