- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第1页,共16页,星期日,2025年,2月5日1.引言数据挖掘:指从大型数据库或数据仓库中提取隐含的、先前未知的、对决策有潜在价值的知识和规则。它是人工智能和数据库发展相结合的产物,是国际上数据库和信息决策系统最前沿的研究方向之一。数据挖掘主要的算法有分类模式、关联规则、决策树、序列模式、聚类模式分析、神经网络算法等等。聚类是数据挖掘中的一个非常重要的研究课题,广泛应用于各个领域,它对未知数能达到合理的效果。研究和运用聚类是完成数据挖掘任务的重要手段,因此对聚类的研究具有重要的理论价值和现实意义。第2页,共16页,星期日,2025年,2月5日2.聚类算法基本原理概述俗话说:“人以群分,物以类聚”。聚类就是利用计算机技术来实现这一目的的一种技术。聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。聚类与分类不同:分类问题中我们知道数据集的分类属性。而聚类问题则需要我们从数据集中找这个分类属性。迄今为止,聚类还没有一个学术界公认的定义.这里给出Everitt在1974年关于聚类所下的定义:一个类簇内的实体是相似的,不同类簇的实体是不相似的;一个类簇是测试空间中点的会聚,同一类簇的任意两个点间的距离小于不同类簇的任意两个点间的距离;类簇可以描述为一个包含密度相对较高的点集的多维空间中的连通区域,它们借助包含密度相对较低的点集的区域与其他区域(类簇)相分离.。聚类的标准是使簇内相似度尽可能大,簇间相似度尽可能小。第3页,共16页,星期日,2025年,2月5日3.数据挖掘算法对聚类的典型要求伸缩性:聚类算法对小数据集和大规模数据集要同样有效。处理不同类型属性的能力:实际应用要求算法能够处理不同类型的数据。能发现任意形状的聚类:聚类特征的未知性决定聚类算法要能发现球形的、嵌套的、中空的等任意复杂形状和结构的聚类。使决定输入参数的领域知识最小化:聚类算法要尽可能地减少用户估计参数的最佳取值所需要的领域知识。能够有效地处理噪声数据:聚类算法要能处理现实世界的数据库中普遍包含的孤立点,空缺或者错误的数据。第4页,共16页,星期日,2025年,2月5日对于输入纪录的顺序不敏感:聚类算法对不同的次序的记录输入应具有相同的聚类结果。高维性:聚类算法不仅要擅长处理低维的数据集,而且要能处理高维、数据可能非常稀疏且高度偏斜的数据集。基于约束的聚类:聚类结果既要满足特定的约束。又要具有良好聚类特性。可解释性和可用性:聚类结果应该是可解释的、可理解的和可用的。第5页,共16页,星期日,2025年,2月5日4.聚类算法分类研究没有任何一种聚类技术(聚类算法)可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构.根据数据在聚类中的积聚规则以及应用这些规则的方法,有多种聚类算法.聚类算法有多种分类方法,这里将聚类算法大致分成层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法和其他聚类算法.第6页,共16页,星期日,2025年,2月5日4.1划分式聚类算法划分聚类算法把数据点集分为k个划分,每个划分作为一个聚类。它一般从一个初始划分开始,然后通过重复的控制策略,使某个准则函数最优化,而每个聚类由其质心来代表(K-MEANS算法),或者由该聚类中最靠近中心的一个对象来代表(K-MEDOIDS算法)。划分聚类算法收敛速度快,缺点在于它倾向于识别凸形分布大小相近、密度相近的聚类,不能发现分布形状比较复杂的聚类,它要求类别数目k可以合理地估计,并且初始中心的选择和噪声会对聚类结果产生很大影响。划分式聚类算法需要预先指定聚类数目或聚类中心,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数值收敛时,得到最终聚类结果。第7页,共16页,星期日,2025年,2月5日K均值聚类1967年,MacQueen首次提出了K均值聚类算法(K-means算法).迄今为止,很多聚类任务都选择该经典算该算法的核心思想是找出K个聚类中心C1,C2,…,Ck,使得每一个数据点xi和与其最近的聚类中心Cv的平方距离和被最小化(该平方距离和被称为偏差D).K均值(K-means)聚类算法(对n个样本进行聚类) 1[初始化].随机指定K个聚类中心(C1,C2,…,Ck); 2[分配xi].对每一个样本xi,找到离它最近的聚类中心Cv,并将其分配到Cv所标明类; 3[修正Cw].将每一个Cw移动到其标明的类的中心; 4[计算偏差]. 5[D收敛?].如果D值收敛,则return(C1,C2,…,Ck)并终止本算法;否则,返回步骤K2.第8页,共16页,星期日,2025年,2月5日K-means算法的优点与不足。优点:能对大型数据集进行高效分类,其计算复杂性为
您可能关注的文档
- 电路中心两级负反馈景.ppt
- 概率论第六章.ppt
- 跨国培训与开发.ppt
- 化学性污染物对食品安全性的影响.ppt
- 环境生物技术.ppt
- 第1章 复变函数.ppt
- 家庭膳食营养学矿物质.ppt
- 第八章电磁波的辐射与接收.ppt
- 第2章液体的表面性质.ppt
- 第五章物理管理信息系统设计与实施.ppt
- 2025年拍卖师慈善拍卖项目整体策划与方案设计专题试卷及解析.pdf
- 2025年拍卖师从危机中寻找机遇的品牌重塑策略专题试卷及解析.pdf
- 2025年拍卖师房地产在建工程拍卖的成交确认专题试卷及解析.pdf
- 2025年拍卖师后疫情时代消费心理与投资偏好对拍卖市场的影响分析专题试卷及解析.pdf
- 2025年拍卖师激励性语言的文化适应性专题试卷及解析.pdf
- 2025年拍卖师拍卖纠纷处理中的心理学应用专题试卷及解析.pdf
- 2025企业人力资源劳动合同模板.docx
- 2025年拍卖师拍卖APP的用户体验与沟通设计专题试卷及解析.pdf
- 2025年拍卖师应对竞买人恶意串通与围标的控场策略专题试卷及解析.pdf
- 基于神经网络的混合气体检测分析系统.pdf
原创力文档


文档评论(0)