一种基于滑动窗口模型数据流加权频繁模式挖掘方法.docVIP

下载本文档

4
0
约7.9千字
约 13页
2018-08-13 发布于福建
举报
版权申诉

一种基于滑动窗口模型数据流加权频繁模式挖掘方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于滑动窗口模型数据流加权频繁模式挖掘方法

一种基于滑动窗口模型的数据流加权频繁模式挖掘方法　　摘要：相对于传统的频繁模式挖掘，加权频繁模式挖掘能发现更有价值的模式信息。针对数据流中的数据只能一次扫描，本文提出了一种基于滑动窗口模型的数据流加权频繁模式挖掘方法WFP-SW（Sliding Window based Weighted Frequent Pattern minig），算法采用WE-tree（Weighted Enumeration Tree）存储模式和事务信息，利用虚权支持度维持模式的向下闭合特性，同时获取临界频繁模式。对临界频繁模式进一步计算其加权支持度获取加权频繁模式，使得计算更新模式更加便捷。实验结果显示算法具有较高的挖掘效率并且所需的内存更少。　　关键词：事务数据流；数据流挖掘；加权频繁模式挖掘；滑动窗口模型　　Abstract：Relative to traditional frequent-pattern mining the weighted frequent-pattern mining can find more valuable pattern information. For the data in the data stream only scanned for one time this paper proposes a data flow weighted frequent-pattern mining method based on sliding window. The algorithm adopts WE-tree storage mode and transaction information and utilizes the virtual weight support to maintain the downward closing characteristic of the mode meanwhile obtains the critical frequent mode. Furthermore the research uses the critical frequent mode to calculate the weighted support of the mode so as to make the computing mode and updating mode more convenient. Experimental results show that the algorithm is efficient and requires less memory. 　　Key words： transaction data flow；data stream mining；weighted frequent-pattern mining；sliding window model 　　引言　　?l繁模式挖掘在数据挖掘和知识发现领域扮演了重要的角色[1]，但是却并未重点关注事务中不同项的不同重要性[2]。考虑到现实环境中不同的项有不同的权重，为了挖掘更加重要的模式，学界提出了加权频繁模式挖掘算法。例如，贵重的首饰被购买的频度比一只笔低得多，因此仅仅通过频度去挖掘很容易使得高权重的模式发生丢失，而加权频繁模式挖掘的推出即解决了这一问题。　　在加权频繁模式挖掘领域，根据加权对象不同，可以将加权频繁模式挖掘方法分为2类。研究可得分类内容如下：　　（1）项的权重信息。在挖掘过程中，通过使用项集的加权支持度代替传统模式挖掘算法的频繁支持度确定加权频繁模式。此类算法从WFIM[3]开始，扩展到许多不同的应用领域中，例如序列模式挖掘[4-5]、流数据挖掘[6]、最大模式挖掘[7-8]，闭合模式挖掘[9]等。其中，WFIM是使用基于FP-tree结构的深度优先搜索（DFS）算法，需要2次扫描数据库，并通过计算每个项集的平均权重获得加权频繁项集。而WFP-SW算法采用广度优先的搜索方式仅需扫描一遍数据，在获得下层节点的同时剔除非加权频繁模式，极大地改善了内存的使用情况。　　（2）效用模式挖掘[10 -11]，考虑到了项的权重和数量。效用模式挖掘根据不同的挖掘形式可进一步划分为增量效用模式挖掘[12]、流效用挖掘[13]和最大效用模式挖掘[14]等。　　基于此，本文提出了一种基于滑动窗口的数据流加权频繁模式挖掘算法WFP-SW。该算法能够在数据流环境中仅用一次扫描来发现加权频繁模式。除了零售市场数据，算法还可以用于挖掘加权网络的遍历路径。众所皆知，不同的网站有不同的重要性，本算法可以发现网络遍历路径的加权频繁信息。此外，在生物医学和DNA数据分析领域[15]，不同的基因有不同的权重，通过