- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Introduced in Kaufmann and Rousseeuw (1990) Implemented in statistical analysis packages Inverse order of AGNES Eventually each node forms a cluster on its own DIANA (分裂式聚类分析) 什么是聚类分析? 聚类分析的数据类型 主要聚类分析方法分类 划分方法 层次方法 总结 Ch06 数据挖掘算法——聚类分析 聚类分析基于群组对象的相似性,具有广泛的应用领域 不同类型数据的相似性度量方法 聚类反复可以分为划分方法、层次方法、基于密度的反复、基于网格的反复和基于模型的方法 划分聚类分析 层次聚类分析 总结 思考题 1。 什么是聚类?简单描述划分的聚类方法(partitioning) 和层次的聚类方法(hierarchical)。 2。 聚类被普遍认为是一种重要的数据挖掘方法, 有着广泛的应用。对如下的每种情况给出一个应用 例子: (a). 把聚类作为主要的数据挖掘方法的应用。 (b). 采用聚类作为预处理工具, 为其它数据挖掘 任务作数据准备的应用。 * * * * * * * 第 * 页 Z S T U ZHEJIANG SCI-TECH UNIVERSITY 经济管理学院管理科学与工程系 本章学习目的 学习完本章后,需要了解和掌握的内容: 聚类的概念和聚类分析的过程 确定不同类型数据相似性度量 掌握一些主要的聚类方法 划分聚类分析方法 层次聚类分析方法 什么是聚类分析? 聚类分析的数据类型 主要聚类分析方法分类 划分方法 层次方法 总结 Ch06 数据挖掘算法——聚类分析 簇:数据对象的集合 聚类原则: 在同一个簇中的对象彼此相似 与其它簇中的对象相异 聚类分析 将数据集对象分类到簇中 聚类是无监督分类:没有预定义的分类 典型应用 作为独立工具获取数据分布的知识 作为其它算法的预处理步骤 (i.e., 关联分析和分类etc) 什么是聚类分析? 模式识别 空间数据分析 图像处理 经济科学 (特别是市场研究) WWW:文档分类 聚类: -- 发现总体的分布模式 -- 发现数据属性中感兴趣的关联 聚类分析的典型应用 Marketing市场: Help market analysts discover distinct groups in their customer databases, and then use this knowledge to develop targeted marketing programs Land use国土利用: Identification of areas of similar land use in an earth observation database City-planning城市规划: Identifying groups of houses according to their house type, value, and geographical location Earth-quake studies地震研究: Observed earth quake epicenters(震中) should be clustered along continent faults(大陆断层) Etc… 聚类分析应用的一些例子 一个好的聚类方法应该形成高质量的簇: high intra-class similarity(类内高相似) low inter-class similarity(类间低相似) 聚类结果的质量依赖于聚类方法的相似性指标以及它的实现 聚类方法的质量通过它能发现一些或所有隐含模式的能力进行评估 什么是好的聚类 可扩展性 处理不同类型属性的能力 发现任意形状的簇 对于决定输入参数的领域知识需求最小 能处理噪声数据 增加聚类和对输入记录的次序不敏感 高维性 ( 3) 与用户定义的约束的协同能力 可解释性和可用性 数据挖掘对聚类的要求 什么是聚类分析? 聚类分析的数据类型 主要聚类分析方法分类 划分方法 层次方法 总结 Ch06 数据挖掘算法——聚类分析 数据矩阵 对象-变量(元组与属性) 结构(two modes:n x p) 相异度矩阵 对象-对象结构 (one mode) 两种典型的数据结构 如何度量相异性d(i, j) -- 相异性的度量 (距离的度量) 与数据类型相关: Interval-scaled type (区间标值型) Binary type(二元型) Categorical/Nominal type 标称型 Mixed types(上述类型的组合型) 聚
您可能关注的文档
- 第5课《火烧云》课件PPT.ppt
- chapter06商业银行.ppt
- 第5课地球运动的基本形式.ppt
- 第5课时《第一单元测试》.ppt
- 第60811号科学综合题题型分析及解法探讨.ppt
- chapter1单证操作概要.ppt
- Chapter1-林子雨-大数据技术原理与应用-大数据概述(2016年2月17日版本).ppt
- Chapter1英语电影讲稿.ppt
- 第6、7章系统设计(总体设计与详细设计).ppt
- Chapter4-厦门大学-林子雨-大数据技术原理与应用-第四章-分布式数据库HBase.ppt
- 《体测分析定计划》教学设计-2025-2026学年冀教版(2024)小学信息技术四年级上册.docx
- 《天气数据助穿衣》教学设计-2025-2026学年冀教版(2024)小学信息技术四年级上册.docx
- 云南公益广告大赛参赛手册及方式.pdf
- 培训课件结尾简短大气句子.ppt
- 《我为社区储物柜来编码》教学设计-2025-2026学年冀教版(2024)小学信息技术四年级上册.docx
- 《我为同学编学号》教学设计-2025-2026学年冀教版(2024)小学信息技术四年级上册.docx
- 《我为科技作品来编码》教学设计-2025-2026学年冀教版(2024)小学信息技术四年级上册.docx
- 超长信用债探微跟踪:2.4的超长信用债有机会吗?.docx
- 装配理论培训课件.ppt
- 大学仪器创制与关键技术研发项目申请书.doc
文档评论(0)