一种改进时间序列特征模式提取方法探究.docVIP

一种改进时间序列特征模式提取方法探究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种改进时间序列特征模式提取方法探究

一种改进时间序列特征模式提取方法探究   摘 要:传统的时间序列特征模式提取算法,在基于前缀检索的基础上引入了项集间隔约束的思想,优化了特征模式提取的质量。本文在此基础上引入了跨度阈值,对模式候选集进行了深度的剪纸及优化,有效提高了特征模式的挖掘质量。通过实验结果证明,特征模式质量改善明显 关键词:时间序列;特征模式;跨度阈值 中图分类号:TP311 文献标识码:A 文章编号:1671-2064(2017)08-0254-01 随着大数据时代的到来,时间序列方面的研究也逐步被重视并占据着重要的的地位。贾艳芳等人提出的基于改进的PrefixSpan算法[1]对序列化数据进行特征模式提取,其融入了MPP算法的思想,使其可以对单序列数据进行模式挖掘。该方法充分利用了序列的原始特性,但提取的模式候选集中序列之间的部分属性存在较大的偏差,因此可信度较低,模式的特征性不强 在单序列特征模式提取问题中,为了提高模式的可信度,谢飞等人提出了MAIL算法,该算法引入了项集间隔约束思想,从而避免了候选集中序列项集间隔的较大差异,在模式质量方面有所改善和提高。但在满足序列自身项集间隔约束的同时并未对序列之间跨度差异进行限定,因此在部分特征模式候选集中序列与序列之间的跨度差异较大,抗干扰性较弱,影响特征模式质量 本文在前人算法的基础上引入了跨度阈值约束机制,通过模式候选集的模式过滤,优化了特征模式的提取。经验证,提取的特征模式质量得以显著改善 1 序列特征模式提取 1.1 跨度阈值 定义:跨度阈值。目标序列S中,模式P匹配到的所有序列位置组成模式候选集M。在候选集M中,每一个序列都对应一个跨度值L,在候选集总的跨度值中选取该集合中位数,记为MI,与MI差值的绝对值满足自给定约束范围的序列记为可用序列。其中,自给定约束范围即为跨度阈值 不同的跨度阈值对特征模式提取的影响不同,因此可以灵活的按需提取不同精度的特征模式,从而发现模式的潜在特性,细粒度化的提高特征模式质量 1.2 特征性判定 序列中满足设定支持度的模式即为特征模式,由于序列本身周期性特点以及其中较多孤立干扰点的存在,其挖掘出的特征模式候选集中的序列之间存在互相重叠的特性,若重叠率较高,在一定程度上会影响特征模式的质量,致使特征模式的特征性不明显 为了定性的表征特征模式的该特性,可以通过如下公式来计算得出,计算公式为: 其中,分母为特征模式候选集中所有序列的总跨度之和,分子为候选集中所有子序列段的跨度乘以其权重之和,其中权重为该重叠子序列个数的倒数,η的取值范围在[0,1]之间。该值作为特征模式质量参考值可以在一定程度上有效的判定出特征模式独特性的强弱 2 模式候选集结构的改进 模式候选集用以模式的扩展,记录匹配序列在目标序列中出现的位置信息,并以首字符位置作为该模式匹配序列的索引标记。为了保证模式的完备性和一致性,模式候选集采用如下数据结构(模式候选集结构(部分)见表1) 由以前基于前缀式的检索方式改为基于首字符位置的内外混合式搜索方式。外部搜索加快了对模式位置的定位,内部搜索实现了对特征模式的跨度阈值检测 3 实验结果分析 3.1 实验环境 所有算法运行在Pentium Dual CPU 3.0GHz,内存为2GB的计算机上,使用JDK1.7开发环境实现 3.2 ?稻堇丛醇霸ご?理 数据源采用提供的来自不同领域的3条时间序列的实际数据集:Ocean、Burstin和Advertisement,序列长度均为12000 3.3 实验对比分析 跨度阈值的引入对特征模式的提取质量产生很大的影响,从提取的特征模式数量、特征η值这两个方面进行对比。实验参数:跨度阈值约束等级分为5和10,项集间隔约束采用g=[0,4],支持度support=20 经实验验证,随着跨度阈值约束逐渐增强,序列中提取出的特征模式数量较以往算法有明显减少,但特征模式的特征η值均值有显著提高,这表明特征模式候选集中序列之间的重叠率下降,特征模式的特征性和可信度得到明显加强和提高。例如Ocean序列数据集,以往算法所提取的特征模式的特征η值均值仅为18.4%和42.1%,可见其中特征模式候选集中序列之间的重叠率较高,而改进算法的特征性均值提升至77.1%,在一定程度上剪去了重叠率较高的特征模式,突出了特征模式的特征性 4 结语 跨度阈值的引入,一方面限定特征模式候选集中序列间跨度的差异,降低了特征模式候选集中序列之间的重叠率,提高了特征模式质量;另一方面提供了一种将特征模式的特征性进行细粒度划分的方式,为更深入的理解序列特征模式提供了依据 参考文献 [1]Pei J, Han J, Mortaz

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档