- 31
- 0
- 约1.84万字
- 约 48页
- 2017-02-14 发布于重庆
- 举报
第六讲聚类规则
聚类分析
主要内容
聚类分析概述
聚类分析中的数据类型
区间标度变量
二元变量
标称型、序数型和比例标度型变量
混合类型变量
主要的聚类分析方法
基于划分方法(partitioning method)
基于层次方法(hierarchical method)
基于密度的方法(density-based method)
基于网格的方法(grid-based method)
基于模型的方法(model-based method)
基于划分的聚类规则挖掘算法
基于层次的聚类规则挖掘算法
基于密度的聚类规则挖掘算法
6.1聚类分析概述
1. 什么是聚类
聚类(clustering)是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。相异度是根据描述对象的属性值来计算的。距离是经常采用的度量方式。在许多应用场合,可以将一个蔟中的对象作为一个整体来对待。
聚类与分类不同的是,它要划分的类是未知的。即聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例。由于这个原因,聚类是观察式学习,而不是示例式学习。
2. 聚类分析的应用
聚类分析已经广泛的用在许多应用中,包括模式识别、数据分析、图象处理以及市场研究。通过聚类,人能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的有趣的相互关系。以下是聚类分析的几种典型应用。
(1)商业:帮助市场分析人员从客户基本库中发现不同的客户群,并且用不同的购买模式描述不同客户群的特征。
(2)生物学:推导植物或动物的分类,对基于进行分类,获得对种群中固有结构的认识。
(3)WEB文档分类。
(4)其他:如地球观测数据库中相似地区的确定;各类保险投保人的分组;一个城市中不同类型、价值、地理位置房子的分组等。
(5)作为其他数据挖掘算法的预处理:即先进行聚类,然后再进行分类等其他的数据挖掘。
聚类分析是一种数据简化技术,它把基于相似数据特征的变量或个案组合在一起。
〖例〗假设一家银行希望发现基于所开账户类型的客户细分。
第一个分段所开的所有账户具有相等的百分比,这类用户用“一般用户”(General Customers)表示。第二个分段抵押(mortgages)、投资账户(investment accounts)、家庭改善性贷款(home improvement loans)和存单(CDs)类账号的比例比较高,这一类用户称为“长期用户”(Long-term Customers)。第三个分段支票账户(checking accounts)、储蓄账户(saving accounts)和个人贷(personal loans)的比例较高,这类用户称为“短期用户”(Short-term Customers)。这样银行可以发现不同分段间的其他行为差异,尤其是消耗(attrition),然后根据这些特点对不同的分段区分处理。
4. 聚类分析的要求
聚类是一个富有挑战性的研究领域。它的潜在应用提出了各自特殊的要求。数据挖掘对聚类的典型要求如下:
(1)可伸缩性:许多聚类算法在小于200个数据对象的小数据集合上工作的很好。但是一个大规模数据库可能包含几百万个对象。在这样的大数据集合样本上进行聚类可能会导致有偏差的结果。我们需要具有高度可伸缩的聚类算法。
(2)处理不同类型属性的能力:许多算法被设计用来聚类数值类型的数据。但是,应用可能要求聚类其他类型的数据,如二元类型(binary),分类\标称类型(categorical/nominal),序数型(ordinal)数据,或者这些数据类型的混合。
(3)发现任意形状的聚类:许多聚类算法基于欧几里德距离或者曼哈坦距离度量来决定聚类。基于这样的距离度量的算法趋向于发现具有相似尺度和密度的球状簇。但是,一个簇可能是任意形状的。提出能发现任意形状簇的算法是很重要的。
(4)用于决定输入参数的领域知识最小化:许多聚类算法在聚类分析中要求用户输入一定的参数,例如希望产生的簇的数目。聚类结果对于输入参数十分敏感。参数通常很难确定,特别是对于包含高维对象的数据集来说,更是如此。要求用户输入参数不仅加重了用户的负担,也使得聚类的质量难以控制。
(5)处理噪声数据的能力:绝大多数现实世界中的数据库都包含了孤立点,空缺,未知数据或者错误的数据。一些聚类算法对于这样的数据敏感,可能导致低质量的聚类结果。
(6)对于输入记录的顺序不敏感:一些聚类算法对于输入数据的顺序是敏感的。例如,同一个数据集合,当以不同的顺序提交给同一个算法时,可能生成差别很大的聚类结果。开发对数据输入顺序不敏感的算法具有重要的
您可能关注的文档
- 第六章五代十国美术.doc
- 第六章原子吸收分光光度法2.doc
- 第六章吸声降噪.doc
- 第六章吸收化工原理.doc
- 第六章土地利用结构与布局.doc
- 第六章变量之间的关系.doc
- 第六章定积分的应用.doc
- 第六章外科疾病及产科疾病.doc
- 第六章小波变换的几个典型应用.doc
- 第六章定积分的应用.docx
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测生物试卷+答案.doc
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测语文试卷+答案.doc
- 四川省绵阳南山中学实验学校2025-2026学年高三上学期1月月考数学含答案.doc
- 2026届辽宁省大连市高三上学期双基考试物理试卷+答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测化学含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测生物含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测英语含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测政治含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试化学含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试生物含答案.doc
最近下载
- 餐厅服务质量保证措施及服务承诺.docx VIP
- 史赛克SFDAI髓内钉系统商品名T中文说明书.pdf VIP
- 2025至2030特种车行业风险投资发展分析及运作模式与投资融资报告.docx VIP
- 监控系统及门禁系统维护方案.docx VIP
- AQ1029-2019 煤矿安全监控系统及检测仪器使用管理规范 (AQ 1029-2019).pdf VIP
- 2026-2031主机游戏市场调查报告.docx VIP
- 《华为组织力:构建持续打胜仗的团队》华为前高管深度解析华为组织底层逻辑-读书笔记.pdf VIP
- 职业健康体检PPT课件.pptx VIP
- 工会会员端午节慰问品采购 投标方案(技术方案).doc VIP
- 2025-2026学年人教版英语七年级上册期末复习.pdf VIP
原创力文档

文档评论(0)