chap4_basic_cluster_analysis-2015讲义.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
chap4_basic_cluster_analysis-2015讲义

Cluster Analysis What is Cluster Analysis? Types of Data in Cluster Analysis A Categorization of Major Clustering Methods Partitioning Methods Hierarchical Methods Density-Based Methods Grid-Based Methods Model-Based Clustering Methods Outlier Analysis Summary 基于网格的聚类方法 使用多分辨率网格数据结构 一些有趣的方法 STING (a STatistical INformation Grid approach) by Wang, Yang and Muntz (1997) WaveCluster by Sheikholeslami, Chatterjee, and Zhang (VLDB’98) A multi-resolution clustering approach using wavelet method CLIQUE: Agrawal, et al. (SIGMOD’98) STING: 统计信息网络 Wang, Yang and Muntz (VLDB’97) 空间区域被划分为矩形单元 存在多级矩形单元对应不同级别的分辨率 STING: 统计信息网络 每个高层单元划分为多个低一层单元 关于每个网格单元属性的统计信息预先计算和存储 高层单元的统计参数可以很容易从低层单元的参数计算得到 count, mean, s, min, max type of distribution—normal, uniform(均匀), etc. 使用自顶向下的方法回答查询 从一个事先选定的层开始—通常该层至少包含少量的单元 对于当前层次每个单元,计算反映该单元与给定查询的相关程度的置信区间 STING:统计信息网络 不相关的单元不再进一步考虑而删除 当检查完当前层,处理下一个较低的层 该过程重复进行直到 优势: 查询独立, 易实现, 增量更新 O(K), 其中K 是最底层网格单元数目 劣势: 簇边界都是水平或者垂直的,没有斜的分界线 Cluster Analysis What is Cluster Analysis? Types of Data in Cluster Analysis A Categorization of Major Clustering Methods Partitioning Methods Hierarchical Methods Density-Based Methods Grid-Based Methods Model-Based Clustering Methods Outlier Analysis Summary 基于模型的聚类方法 视图优化给定数据和某数学模型之间的拟合 基于统计和人工智能的方法 概念聚类 机器学习中一种聚类的模式 为没有标签的对象数据集构建一个分类的策略 为每个概念(类)找出特征描述 COBWEB (Fisher’87) 一个常用的简单的增量概念学习 利用分类树的形式创建层次聚类 每个节点对应一个概念,并且包含概念的概率描述 COBWEB Clustering Method 分类树 更多关于基于统计的聚类 COBWEB的一些局限性 它基于这样一个假设:各个属性的概率分布是彼此统计上独立的,然后,由于属性之间经常存在相关,这个假设并不总是成立 不适合大数据集聚类 – 簇的概率分布使得更新和存储簇相当昂贵 CLASSIT COBWEB的扩展,用于处理连续性数据的增量聚类 与COBWEB 一样存在类似的问题 AutoClass (Cheeseman and Stutz, 1996) 使用贝叶斯统计分析来估计簇的数量 在工业界比较受欢迎 Cluster Analysis What is Cluster Analysis? Types of Data in Cluster Analysis A Categorization of Major Clustering Methods Partitioning Methods Hierarchical Methods Density-Based Met

文档评论(0)

441113422 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档