2025《时间序列相关概念及经典聚类算法概述》1900字.docxVIP

2025《时间序列相关概念及经典聚类算法概述》1900字.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

时间序列相关概念及经典聚类算法概述综述

1.1时间序列相关概念

时间序列(timeseries)是按照时间顺序排列的一组随机变量REF_Ref103803264\r\h[4]。时间序列与随机过程紧密相关,在时间序列的理论研究过程中经常将其理解为一个随机过程。随机过程(stochasticprocess)是一组有序的随机变量,可以记为{y(t),t∈T}。随机过程一般是定义在连续集合上的,而定义在离散集合上的随机过程则通常称为时间序列。离散的时间集合T可以表示为T={……,-2,-1,0,1,2,……},此时y(t)是离散时间t的随机函数,时间序列通常表示为{y,t=……,-2,-1,0,1,2,……}。

时间序列在特定时间段上的观测样本可以是随机过程的一次实现,通常称为样本序列,记为{yo,y1,y2,…,yT}。理论上说,时间序列可以有无限个观测时间点,然而从实际可获得的样本数据来看,我们所得到的样本序列都是有限的。更加关键的是,由于时间的不可重复性,时间序列通常仅有一次实现,即只有一个样本序列。因此时间序列的经验研究的一个显著特点是,只能在唯一可观测到的样本序列的基础上来推断时间序列的总体特性。

时间序列聚类:给定时间序列数据集D=F1,F2,……,Fn,通过无监督的方法将D划分为C=C1,C2,……,Ck。在这种情况下,其根据所确定的相似性度量将同质的序列元素组合在一起的过程称之为时间序列聚类。

Ci为一个聚类,其中

D=i=1

可划分为三类:1)整个序列聚类:一系列离散的单个时间序列的聚类。

2)子序列聚类:通过滑动窗口在一个时间序列中提取的一系列子序列上的聚类

3)时间点聚类:基于时间点的时间接近度和对应值的相似性组合的聚类,类似于时间序列分割,但不需要将所有点都完美分割,部分可视为噪声。

1.2时间序列特征提取

特征提取是对某一模式的组测量值进行变换,以突出该模式具有代表性特征的一种方法。通过影像分析和变换,以提取所需特征的方法。至今为止特征没有万能和精确的定义。特征的精确定义往往由问题或者应用类型决定。特征是一个数字图像中“有趣”的部分,它是许多计算机图像分析算法的起点。因此一个算法是否成功往往由它使用和定义的特征决定。因此特征提取最重要的一个特性是“可重复性”:同一场景的不同图像所提取的特征应该是相同的。特征提取与降维有关,特征的好坏对泛化能力有至关重要的影响REF_Ref103803295\r\h[5]。

时间序列特征表示是将原时间序列转换为另一论域中的数据并且起到数据降维的作用;同时,使得在低维空间下的数据能尽可能地反映原时间序列信息。目前已有不少相关的时间序列特征表示方法,如分段线性表示、分段聚合近似、符号化表示方法、基于域变换的表示方法、奇异值分解和基于模型的表示方法等,它们之间存在一定的区别和联系REF_neb7BD59B7E_086A_428D_8C59_753CB88F8DBA\r\h[6],如图1.1.所示。

图1.2时间序列特征表示方法归类

1.3聚类算法概述

经典的聚类算法可以分为REF_Ref103803352\r\h[7]REF_Ref103803375\r\h[8]

1.划分法(PartitioningMethods):它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据。例如k-means算法。

1.层次法(HierarchicalMethods):通过某种相似性测度计算节点之间的相似性,并按相似度由高到低排序,逐步重新连接个节点。该方法的优点是可随时停止划分,主要步骤如下:(1)移除网络中的所有边,得到有n个孤立节点的初始状态;(2)计算网络中每对节点的相似度;(3)根据相似度从强到弱连接相应节点对,形成树状图;(4)根据实际需求横切树状图,获得社区结构。例如:BIRCH算法,CURE(ClusteringUsingRepresentatives)算法等等

3.基于密度的方法(density-basedmethods):把临近的密度高的区域练成一片形成簇。该方法可以找到各种大小各种形状的簇,并且具有一定的抗噪音特性。在日常应用中,可以用不同的索引方法或用基于网格的方法来加速密度估计,提高聚类的速度。例如DBSCAN算法,OPTICS算法

4.基于网格的方法(grid-basedmethods):采用空间驱动的方法,把嵌入空间划分成独立于输入对象分布的单元。基于网格的聚类方法使用一种多分辨率的网络数据结构。它将对象空间量化成有限数目的单元,这些网格形成了网格结构,所有的聚类结构

您可能关注的文档

文档评论(0)

02127123006 + 关注
实名认证
文档贡献者

关注原创力文档

1亿VIP精品文档

相关文档