- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多元时间序列中 关联规则的发现 史忠植 董泽坤 中国科学院计算技术研究所 * 多元时间序列的关联规则分析 关联规则:设 是项的集合。任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合, 。每个事务有一个标识符,称为TID。设A是一个项集,事务T包含A当且仅当 。关联规则是形如 的蕴含式,其中, , , 。 关联规则的算法OptimizedApriori 优点:只读取一次数据库 OptimizedApriori是在ArioriTid的基础上,将数据结构由TID,{IID}变换为{IID},{TID},从而迅速减少了系统的I/O操作。 在构造候选1-项集时,每一个项(IID)携带了它在数据库中出现的位置记录集合({TID}),使得以后的操作可以脱离数据库。 构造k-项集时,新的项目集合( {IID} )由两个k-1项集的项目集合求并集得到,记录号集合( {TID} )由两个k-1项集的记录号集合求交集得到。 缺点:消耗大量的内存 大型数据库操作时会受到处理器内存容量的限制,数据可能无法一次装入。 多元股票时间序列的关联规则(1) 数据预处理 1.数值离散化 s1=3,4,3,2,4,2,0,3,4,4 s2=2,3,2,3,3,4,3,1,1,4 s3=0,3,4,1,0,1,3,3,3,4 多元股票时间序列的关联规则(1) 多元股票时间序列的关联规则(2) 规则挖掘 设:最小支持度20%,最小信任度50% 规则: s1.3 ? s2.2:股票1涨?股票2平(20%,66.7%): s1.4 ? s2.3:股票1大涨? 股票2涨(20%,50%); s2.1 ? s3.3:股票2跌? 股票3涨(20%,100%); 测试集 中国证券市场1997-2001共五年间近500只股票的收盘价时间序列集(以下同) 多元股票时间序列的关联规则(3) 测试结果 多元时间序列的跨事务关联规则分析(1) “跨事务”特性的特点: 强调的是出现在不同事务中各项目之间的关联关系,应用到时间序列中就是不同时刻各序列的数据特征之间的关系,如: A公司的股票在第一天上涨,B公司的股票在第二天下跌,那么,C公司的股票会在第三天上涨。(s%,c%) 这种规则包含了时间特性,规则的前件可以用来作为后件的预测条件,它们的实际使用价值是很明显的。 多元时间序列的跨事务关联规则分析(2) 多元时间序列的跨事务关联规则: 设∑={ e1(0),…,e1(w-1),e2(0),…, e2(w- 1) , …,eu(0),…, eu(w-1) }是事件的集合,这些事件是多元时间序列合并集D中各序列观察值的属性,w是D的滑动时间窗口。以时刻s (1≤s≤n-w+1)为D的参考时间基准点,如果时刻s+x (0≤x≤w-1)此事件出现,则标记ei(x) 属于Ts。每一个 ei(x)分配一个识别号IID。多元时间序列的跨事务关联规则是形如X?Y的蕴涵式,并且满足以下条件: X?∑,Y?∑; ?ei(0)∈X, 1≤i≤u; ?ej(q)∈X, 1≤j≤u,((i=j)∧(1≤qw-1))∨((i≠j)∧(0≤qw-1)); ?ei(p)∈Y, 1≤i≤u, max(q) p≤w-1; X∩Y=? 多元时间序列的跨事务关联规则分析(3) 和传统关联规则算法比较,跨事务关联规则算法要更复杂: ①要处理的数据超过算法能承受的范围后,频繁项集的数目将变得巨大而无法处理; 在跨事务分析中,每一个基本项将扩展为w(滑动时间窗口)个。假设有1000个基本项,在传统关联规则分析中,会产生至多(999+1)*999 /2 =499500个候选二项集;而在跨事务分析中,会产生(1000*w-1)*(1000*w-1)/2个候选二项集,这个数字以w2的倍数增长。如果w=3,则会有4498500(增加了9倍)个二项候选集;更严重的是,在构造候选三项集时,会有更多的增长。随着数据的增加,系统的内存将会枯竭,效率明显下降。 ②候选集数目的增加导致更频繁的数据库扫描动作。 为统计每一个候选集的频繁支持度计数值,需要通过搜索数据库中每一条记录来确定候选集的所有项是否出现。很明显,数据库的频繁访问会占用很多运行时间。 跨事务关联规则的算法ES-Apriori(1) 为提高多元时间序列的跨事务关联规则分析效率,本文提出了一个扩展的分步Apriori算法:ES-Apriori,此算
您可能关注的文档
- 第四章节连续时间傅立叶变换thecontinuousti资料.ppt
- 第四章节权利时间限制__时效制度jing资料.pdf
- 第四章节时间跟频率的测量资料.ppt
- 第四章节时间序列分析解析初步(计量经济学-社科院,张涛)资料.ppt
- 第四章节时间序列分析解析资料.ppt
- 第四章节无线传感器网络定位、跟踪跟时间同步技术资料.ppt
- 第四章节项目时间管理资料.ppt
- 第五代时间管理-优先管理--smelt1026资料.ppt
- 第五章节 时间数列资料.ppt
- 第五章节 时间序列 2资料.ppt
- DB29-144-2010天津市地下铁道盾构法隧道工程施工技术规程.docx
- 浙江省杭州地区(含周边)重点中学2024-2025学年高一上学期11月期中考试英语试题2.docx
- 2021-2022学年江西省抚州市崇仁县五年级下册期末检测英语试卷.docx
- 吉林省辽源市田家炳高级中学高三(六十五届)友好学校下学期期末联考文科综合地理试题扫描版含答案.doc
- 云南省新平一中高三教学质量检测(七)生物.doc
- 河南省名校大联考2024-2025学年高一上学期12月月考历史试题2.docx
- 99R101 燃煤锅炉房工程设计施工图集55.docx
- D503-D505防雷与接地(下册)彩色版.docx
- 70-通风管道沿程阻力计算选用表 08K-508.docx
- 18GL204 预制混凝土综合管廊_3395.docx
文档评论(0)