- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘与商务智能Data Mining Business Intelligence 西安电子科技大学 软件学院 主讲人:黄健斌 分类与聚类 尽管分类是一种识别对象组或类的有效手段,但是它常常需要高昂的代价收集和标记大量训练元组集或模式,以便分类法使用它们对每个组建模 希望: 首先,基于数据的相似性把数据集合划分成组 然后,给这些数量相对较少的组指定标号 基于聚类的过程的另一个优点: 可以适应变化,并且能够挑选出区分不同组的有用特征 聚类 什么是聚类? 聚类(clustering)是将物理或抽象对象的集合分成相似的对象类或簇(cluster)的过程 相关概念 簇是数据对象集合,同一个簇中的对象之间具有很高的相似度,而不同簇中的对象高度相异 相异度根据描述对象的属性值评估,通常使用距离度量 聚类 什么是聚类? 聚类(clustering)是将物理或抽象对象的集合分成相似的对象类或簇(cluster)的过程 相关概念 簇是数据对象集合,同一个簇中的对象之间具有很高的相似度,而不同簇中的对象高度相异 相异度根据描述对象的属性值评估,通常使用距离度量 聚类 应用领域 市场研究、模式识别、数据分析、图像处理 其他应用 在某些应用中,聚类又称数据分割(data segmentation),因为它根据数据的相似性把大型数据集合划分成组 聚类还可以用于离群点检测(outlier detection),其中离群点(“远离”任何簇的值)可能比普通情况更值得注意 聚类技术 基于划分的聚类 基于层次的聚类 基于密度的聚类 基于图论的聚类算法 基于网格的聚类算法 基于模型的聚类算法 基于划分的聚类 划分方法(partitioning methods) 定义:给定n个对象或数据元组的数据库D,划分方法构建数据的k个划分(k ≤ n),每个划分表示一簇 方法:给定要构建的划分数目k,划分方法创建一个初始划分;然后采用迭代重定位技术,尝试通过对象在组建移动来改进划分 比较常用的算法 k-means:k均值聚类算法,其中每个簇都用该簇中对象的均值来表示 入选数据挖掘十大算法 k-medoids:k中心点聚类算法,其中每个簇用接近簇中心的一个对象来表示 CLARANS:大型数据库中的划分聚类算法 k-means 算法思想: 随机选择k个对象,每个对象初始地代表一个类的平均值;对剩余每个对象,根据其到类中心的距离,被划分到最近的类;然后重新计算每个类的平均值。不断重复这个过程,直到所有的样本都不能再分配为止。 给定类 , 其均值定义为: (在定义里假设每个对象是数值型属性) k-means 输入:期望得到的簇的数目k,n个对象的数据D 输出:k个簇的集合 方法: (1)选择k个对象作为初始的簇的质心 (2)repeat (3)计算对象与各个簇的质心的距离,将对象划分到距离其最近的簇 (4)重新计算每个新簇的均值 (5)Until簇的质心不再变化 k-means k-means 假设:给定如下要进行聚类的对象: {2,4,10,12,3,20,30,11,25},k = 2,请使用k均值划分聚类 步骤如下: m1 m2 K1 K2 2 4 {2,3} {4,10,12,20,30,11,25} 2.5 16 {2,3,4} {10,12,20,30,11,25} 3 18 {2,3,4,10} {10,12,20,30,11,25} 4.75 19.6 {2,3,4,10,11,12} {20,30,25} 7 25 {2,3,4,10,11,12} {20,30,25} k-means 算法的计算复杂度为O(nkt) 其中 n为数据集中对象的数目 k为期望得到的簇的数目 t为迭代的次数 在处理大数据库时也是相对有效的(可扩展性) k-means 优点 聚类时间快
您可能关注的文档
- 国有建设用地使用权出让-老河口.PPT
- 国开学习网的网上教学20161123修订版.PPT
- 国有大中型企业是国民经济的支柱.PPT
- 国开学习网的网上教学20171121修订版.PPT
- 国有企业小金库专项治理报表培训-国科控股.PPT
- 国有企业-中国供销集团.PPT
- 国有资产管理的基本特征.PPT
- 国有资产的处置-资产与室管理处.PPT
- 国民经济统计指标分析.PPT
- 国科会人文学研究中心补助‘人文学研读会’申请书-科技部人文社会.DOC
- 英语连词应用专项训练题.doc
- 2025汉中镇巴县经济合作促进中心招聘(2人)(公共基础知识)综合能力测试题附答案解析.docx
- 《2025年光伏产业组件尺寸标准化与供应链效率提升分析》.docx
- 2025年太阳能热发电并网技术标准与市场实践.docx
- 2025年K12课外教育合规化转型投资价值评估.docx
- 英语虚拟语气专项训练题.doc
- 2025年手游出海市场云游戏技术采纳趋势报告.docx
- 2025年智能协作平台AI功能创新应用分析.docx
- 新能源车动力电池性能测试报告.docx
- 2025广西南宁市武鸣区中医医院里建社区卫生服务中心招聘5人(公共基础知识)综合能力测试题附答案解析.docx
最近下载
- 农业产业园项目农产品质量安全监管体系建设与评估报告.docx VIP
- 2024版矿石资源勘探与开采合作协议.docx VIP
- 统编版九年级道德与法治下册全册教学设计教案.pdf
- 新目标大学英语(第二版)视听说教程 3 参考答案.pdf VIP
- 某住宅楼给水排水设计毕业论文(设计)计算书.doc VIP
- 婴幼儿发展心理学 同伴关系 同伴关系.pptx VIP
- 人教版九年级(初三)道德与法治下册全册教案.pdf VIP
- 会计学原理课程实验(第六版)张志康习题答案解析.pdf
- 20S517- 排水管道出水口.pdf VIP
- Bose博士SoundTouch 300 Soundbar 扬声器说明书.pdf
原创力文档


文档评论(0)