基于分形自相似性和网格的数据流聚类.pptxVIP

基于分形自相似性和网格的数据流聚类.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于分形自相似性和网格的数据流聚类技术研究吴晓璇2013.3.21提纲基于分形自相似性的数据流聚类算法基于分形和网格的高维数据流聚类算法基于分型聚类的数据流离群数据挖掘算法一.基于分形自相似性的数据流聚类算法该算法在计算分形维度时使用的数据结构为嵌套网格结构,只需单遍扫描数据集。此外,在单一分形影响度的基础上提出平均分形影响度概念,根据数据点对不同簇的影响程度不同,动态的将数据点划分到分形维度变化最小的簇中。1.数据流中分形维数计算方法对于一个数据集,如果它在区间内表现出统计自相似性,称为分形数据集,其分形维度 定义如下: 其中r:覆盖数据空间所用的网格变长; :网格所包含的数据点数; :反映了分形集中点的聚集程度; :反映了分形集中点的分散情况。考虑到实际应用的需求及计算资源的限制,一般选取 作为分形维数.定义1(分形影响度)将数据点 加入数据集 后获得新数据集 ,用 和 分别表示原有数据集和数据集的分形维数,则数据集分形维数的变化称为分形影响度。记为: 定义2(平均分形影响度)计算一个数据集的多个分形影响度 的平均值,即为平均分形影响度。记为:1.数据流中分形维数计算方法为计算分维,数据集中所有数据点的统计数据将被存储在一个嵌套网格结构中。计算分维的主要工作是对不同r值所对应的每个网格所包含点数的统计。每个数据在每一层只可能位于唯一的网格中,因此一遍扫描数据就可得到最底层网格的数据统计。下图为二维嵌套网格结构Z-ordering及编码。为了得到较上层网格结构的统计数据,利用编码技术对网格进行编码:2.基于分形自相似性的数据流聚类算法CluStream算法框架应用于此算法中,整个聚类过被分为在线微聚类和离线宏聚类两个阶段。在线阶段,未达到单遍扫描和节省存储空间的目的,利用嵌套网格结构计算分形维度。当新数据点到来后,根据数据点对每个簇产生的影响程度,得到 和 。首先根据单一分形影响度判断该点属于哪个聚类,若新数据点使两个或多个聚类的单一分形影响度变化相近甚至相等,则使用平均分性影响度来再次判断该点的聚类情况。在离线部分可以根据用户设置的参数分析数据流的聚类情况。基于分形自相似性的数据流聚类算法1.初始聚类将数据空间划分网格,计算网格密度,判断网格的密集程度。将相邻的密集网格单元合并成簇,共生成k个簇 ,对每个簇 建立一个嵌套网格结构,分别计算初始化簇的分维 .2.在线过程为防止概念漂移,使用滑动时间窗口,对嵌套网格中过期的统计数据进行处理。将数据点分别预加入到初始化得到的每个簇中,进而计算(平均)分形影响度。3.离线阶段在完成所有数据点的聚类后,将在线部分生成的微聚类快照存储到磁盘(采用CluStream提出的金字塔时间框架存储)。用户根据自己设定的参数和查询时间跨度,挖掘相应的时间段内算法的最终聚类结果,再根据自己的需要分析数据流中数据的积累和变化情况。二.基于分形和网格的高维数据流聚类利用分形方法计算数据集的特征属性,选择一个属性初始化的特征属性集合,向其中加入属性,若加入的属性使得特征属性集合的分形维数加一,则认为是特征属性。当有聚类请求时,将高维数据投影到特征属性形成的子空间中,在子空间上,以网格为数据单元进行分形聚类。1.基于分形的特征维选择算法以分维的变化程度值1为判断特征属性的标准,若一个属性使原有特征属性集的分维加1,则为特征属性;否则在0、1之间,该属性不是特征属性。基于分形和网格的高维数据流聚类三.基于分形聚类的数据流离群数据挖掘在网格聚类的基础上,将未被聚类的稀疏网格拟加入到已存在的簇中,计算离群程度,根据网格对存在簇的离群程度判断离群点,如离群程度超过一定阈值,则认为该网格为离群网格,其中数据点为离群点。定义3(网格单元选择率)为网格单元g中数据点个数与数据空间的数据点总个数的比值,记为当且仅当, (设定的选择率阈值) 称网格单元g为密集网格,否则为稀疏网格。定义4(离群程度) 为簇 的分维, 为加入网格单元 后簇的分维,则网格 的离群程度为:对于稀疏网格,若它使其它簇的离群程度 (设定阈值),则该网格中的数据点为离群点。启发1.网格结构在获取数据的统计信息方面的简洁性和高效性;2.如何利用分维实现高维数据集降维(本征维数/特征属性集合);3.如何利用数据点的分维来判断离群点;4.针对流数据的动态性,避免概念漂移;5.将分形数据挖掘技术与其他智能算法的很好结合。谢 谢!

文档评论(0)

好文精选 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档