网站大量收购闲置独家精品文档,联系QQ:2885784924

时间序列挖掘聚类.pptx

  1. 1、本文档共61页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第六章时间序列挖掘●聚类山西财经大学信息管理学院常新功目 录聚类的概念聚类算法的评价标准时间序列聚类概述k-mediods时间序列聚类基于 LB_Hust 距离的时间序列聚类基于SAX表示的聚类聚类的概念聚类(Clustering)是数据挖掘领域中的一个重要分支。所谓聚类,是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程 。聚类是依据事物的某些属性将其聚集成类,使类间相似性尽量小,类内相似性尽量大。2015.4.19,的深圳举办的新一代信息技术产业发展高峰论坛上,中国工程院院士李德毅在发言中指出,尽管目前对于大数据的认知存在挑战,但聚类将会成为大数据认知的突破口。通过大数据聚类即时发现价值,要充分认识大数据中的不确定性和价值的隐蔽性。 聚类算法的评价标准1) 可伸缩性:可伸缩性考察聚类算法对于目标对象集合的规模以及目标集合潜在的模式数量的适应性。2) 处理不同类型属性的能力:除了通常处理的数值型数据,应用当中可能要求聚类其它类型的数据,如:二元类型,分类/标称类型,序数型,时间序列、图数据或者不同数据类型的混合。3) 发现任意形状的聚类:许多聚类算法基于欧几里德距离或者曼哈顿距离度量来决定聚类。基于这种距离度量的算法趋向于发现具有相近尺度和密度的球状簇。但是一个簇可能是任意形状的,提出能发现任意形状簇的算法是很重要的。4)交互可视化:高维数据和复杂对象常常使可视化变得困难,而交互性则使算法与人结合有利于提高聚类的质量。聚类算法的评价标准5) 最小化用于决定输入参数的领域知识和数据记录敏感性:一方面要求降低算法对输入参数的敏感程度,另一方面要求输入记录顺序对算法的结果影响小。要求用户输入参数不仅会加重用户的负担,也使得聚类的质量难以控制。6) 处理噪声数据的能力:绝大多数现实世界中的数据库都包含了孤立点,空缺,未知或者错误的数据。一些聚类算法对于这样的数据敏感,导致聚类质量不高。7) 高维性:许多聚类算法只擅长处理低维数据。在高维空间中聚类数据对象是一个挑战,特别是在数据有可能非常稀疏和偏斜时。8) 可解释性和可用性:知识发现过程中,聚类结果总是需要表现为一定的知识,这就要求聚类结果可解释,易理解。时间序列聚类概述时间序列聚类是时间序列数据挖掘的一个非常基础且非常活跃的研究方向,被广泛应用于包括模式识别、数据分析、图像处理、市场分析等各个领域:零售数据的季节模式聚类、国家能源消耗聚类分析、心电图ECG信号聚类分析、股票序列的模式发现以及个人收入数据的聚类等等(Valk and Pinheiro, 2012, Rodrigues et al., 2008, Costa Santos et al., 2006, Berkhin, 2006, Warren Liao,2005, Bagnall and Janacek, 2005)。国内外许多研究者提出了很多时间序列聚类方法,这些方法大致可以分为三种:基于原始序列、基于特征数据和基于模型参数(Warren Liao, 2005)。基于原始序列数据的时间序列聚类直接运行在原始时间序列上的聚类称为基于原始数据的聚类(Zhang et al., 2011, Rodrigues et al., 2008, Warren Liao, 2005)。但在实践中,由于时间序列的高维特点,会导致大部分的聚类方法失效,具体表现为:(1)时间序列被看成高维空间中的一个点,所以数据分布会呈现稀疏性,从而导致欧氏距离不能正确测度对象间的相似程度(Wang et al., 2005, Domeniconi et al., 2004);(2)多数算法的性能受参数设置的影响,在缺乏背景知识时,用户可以根据反馈的算法结果精调参数,但高维数据造成聚类结果无法可视化,使得用户很难判断聚类结果的质量,所以很难合理设置参数(Jain, 2010, Chen, 2007, Lin et al., 2004,Ding and He, 2004)。基于特征数据的时间序列聚类基于特征的表示方法是把原始时间序列转换到一个低维的特征空间,然后用传统的聚类方法对特征向量进行聚类(Yang et al., 2009, Xiaozhe et al., 2007,Keogh et al., 2007, Chen, 2007, Zhang et al., 2006, Wang et al., 2006,Costa Santos et al., 2006,Wang et al., 2005,Bagnall and Janacek, 2005,Domeniconi et al., 2004)。由于基于特征的聚类方法中提取的特征来自序列本身,且具有特定的含义,所以该聚类方法不仅实现对序列的降维,又使得聚类结果具有可解释性。这里,常用的

文档评论(0)

老师驿站 + 关注
官方认证
内容提供者

专业做教案,有问题私聊我

认证主体莲池区卓方网络服务部
IP属地河北
统一社会信用代码/组织机构代码
92130606MA0GFXTU34

1亿VIP精品文档

相关文档