- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
非同步多时间序列中频繁模式的发现算法a-citeseerx
1000-9825/2002/13(03)0410-07 ©2002 Journal of Software 软 件 学 报 Vol.13, No.3
非同步多时间序列中频繁模式的发现算法
李 斌, 谭立湘, 解光军, 李海鹰, 庄镇泉
( 中国科学技术大学 电子科学与技术系,安徽 合肥 230026)
E-mail: binli@
摘要: 从多个时间序列中发现频繁模式在实际应用中具有非常重要的价值. 已知文献所提供的方法均假设多时
间序列是同步的,但是,在现实世界中,这一条件并不总能满足,许多情况下它们是非同步的.提出了一个从非同
步多时间序列中发现频繁模式的算法.该算法首先利用线性化分段表示法和矢量形态聚类实现时间序列的特
征分割与符号化转换,然后通过将Agrawal 关联模式发现算法的核心思想与时间序列最短实现表示方法相结合,
实现了非同步多时间序列中多种结构频繁模式的发掘.与已有算法相比,该算法更简单、更灵活,并且不要求序
列严格同步.实验结果证明了该算法的有效性.
关 键 词: 数据挖掘;时间序列;频繁模式;最短实现;符号化
中图法分类号: TP 18 文献标识码: A
时间序列是现实世界中最常见的数据形式之一,对时间序列进行分析,可以揭示事物运动、变化和发展的
内在规律,对于人们正确认识事物并据此作出科学的决策具有重要的现实意义.数据挖掘利用机器学习等方法,
从大量历史数据中发现局部的、频繁出现的行为模式,是一种新的、很有前途的时间序列分析方法.
在对金融领域的多个时间序列(如各种价格数据和指标数据)进行分析时,经常希望能够发现不同时间序列
间可能存在的关联关系,这种关联关系一般表现为不同序列中频繁地同时或依次出现的变化模式.发现这种多
时间序列中的频繁结构模式对于人们认识金融系统内在的相互影响并据此作出合理的决策具有重要的参考
价值.
本文提出了一个从多个时间序列中发现多种结构的频繁模式的数据挖掘算法.该算法首先利用线性化分
段和矢量形态聚类方法实现时间序列中基本变化模式的分割与提取,将多个时间序列转换成离散的、非同步的
[1] [2]
多个符号序列;然后利用Agrawal 关联模式发现算法的核心思想 ,结合“最短实现”表示方法 ,实现了非同步多
符号序列中频繁模式的发现.该算法简单、直观,具有较高的实用价值.
1 相关工作
[1]
频繁模式的发现研究始于 Agrawal 提出的关联规则的发现研究 ,一直是数据挖掘研究中的一个重要课
题.在文献[1]中,Agrawal 给出了关于频繁模式的一个重要定理,即“任何频繁模式的子模式必定也是频繁的”. 由
该定理可以得到一个更为实用的推论,即“可以由已知频繁模式集产生更大长度的候选频繁模式”.
Heikki Mannila 将Agrawal 关联规则发现算法的核心思想推广到事件序列,提出了事件序列中频繁情节的
收稿日期: 2000-06-15; 修改日期: 2000-09-26
基金项目: 国家重点基础研究发展规划973 资助项目(G 1998030413);国家教育部博士点基金资助项目(1999035808)
作者简介: 李斌(1970 -), 男,安徽合肥人,博士,讲师,主要研究领域为数据挖掘,神经网络,遗传算法;谭立湘( 1970-),女, 山东青
岛人,讲师,主要研究领域为数据库,数据通信,多媒体;解光军(1970 -), 男,安徽合肥人,博士生,讲师,主要研究领域为神经网络,量子计
算;李海鹰(1968 -), 男,安徽合肥人,博士生,讲师,主要研究领域为神经网络, 电子商务;庄镇泉(1938 -), 男,福建泉州人,教授,博士生导
师,主要研究领域为智能信息处理.
李斌 等:非同步多时间序列中频繁模式的发现算法 411
[3]
发现算法 ,事件序列可看作是一种离散的时间序列.
Tim Oates 等人提出了从多个数据流中搜索关联模式的数据挖掘算法(MSDD)[4],其中,多数据流表示为严
格同步的多个符号序列.Oates 等人给出了候选模式的产生和强关联模式的启发式搜索算法
文档评论(0)