- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
时序数据知识发现0829精选
博士中期报告 时序数据知识发现技术 ----焦吉成 时序数据知识发现技术 作者:焦吉成 导师:高学东教授 北京科技大学博士中期报告 二OO六年八月三十日 第*页 共34页 4.3 粗糙集属性约简常用算法 (1)Pawlak约简算法 通过逐步删除属性,属性约简。实质是穷举。 (2)Skowron可辩识矩阵算法 建立一个较大的矩阵来进行逻辑演算。 (3)各种启发式算法 在删除过程中,提供一此启发式信息,减少搜 索的次数。 针对这些不足,我们提出一个新的约简算法(RedAttrBU)。 把对表的搜索转化为集合的运算,极大的提高约简效率。 第*页 共34页 4.4 基于关系积属性约简算法 X1 X2 Y1 Y2 Y3 Y4 X2∩Y1 X1∩Y1 X1∩Y2 X1∩Y4 X1∩Y3 X2∩Y2 X2∩Y4 X2∩Y3 (b)属性a和b的关系积 (a)属性a和属性b对集合的划分 关系积示意图 第*页 共34页 4.4 基于关系积属性约简算法(续) 开始 结束 输入初始决策表, 置最小约简集为空 是否构成 最小约简? Y N 计算一阶关系积 计算高一阶关系积 输出核及最小约简 高阶关系积是由 一阶关系积和次 阶关系积进行集 合运算得到。 关系积运算满足 交换率和结合率。 第*页 共34页 条件属性 决策属性(d) Outlook(a1) Temperature(a2) Humidity(a3) Windy(a4) 1 Sunny Hot High False N 2 Sunny Hot High True N 3 Overcast Hot High False P 4 Rain Mild High False P 5 Rain Cool Normal False P 6 Rain Cool Normal True N 7 Overcast Cool Normal True P 8 Sunny Mild High False N 9 Sunny Cool Normal False P 10 Overcast Mild Normal False P 11 Rain Mild Normal True P 12 Overcast Mild High True P 13 Overcast Hot Normal False P 14 Rain Mild High True N 利用RedAttrBU算法的约简结果与采用Pawlak算法约简结果相同。 4.4 基于关系积属性约简算法(续) 第*页 共34页 5.1 关联规则挖掘常用算法 (1)Apriori算法 主要思想: 使用频繁项集性质的先验知识,它使用一种逐层搜索的迭代方法。K-项集用于探索(K+1)-项集。首先找出频繁1-项集的集合,该集合记作L1, L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到找到频繁K-项集。找每个Lk 需要一次数据库的扫描。 性质:频繁项集的所有非空子集都必须也是频繁的。 实现:包括两步: ①连接; ②剪枝; 第*页 共34页 (2)FP-tree算法 主要思想:任何频繁项集都是最大频繁项集的子集。可以把发现所有频繁项集的问题转化为发现所有最大频繁项集的问题。 实现:包括两步: ①构造频繁模式树FP-tree; ②利用FP-tree挖掘最大频繁模式; 5.1 关联规则挖掘常用算法(续) 第*页 共34页 结论(1):已完成的工作 针对时序数据特点,提出了小波去噪的框架。在此基础上,对时序数据分段,转化为决策表。 针对粗糙集属性约简的不足,提出了基于关系积的属性约简算法RedAttrBU。 把多维时间序列转化为常用的事务数据库,并结合时间序列的特殊性,提出了AprioriCR算法。 第*页 共34页 结论(2)未来的工作 针对实际应用中,多维属性的特点,探索多维时间序列的聚类算法; 探索属性对属性约简算法。时间序列离散化后,属性是以特征对的形式出来,约简算法对此考虑的不足。 开展时间序列挖掘的应用研究。通过实际应用,发现我们所提算法的不足和缺陷,进行改进和完善。 恳请指正! 博士中期报告 时序数据知识发现技术 ----焦吉成
文档评论(0)