改进的多数据流协同频繁项集挖掘算法.docVIP

下载本文档

0
0
约1.16万字
约 16页
2016-09-15 发布于北京
举报
版权申诉

改进的多数据流协同频繁项集挖掘算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

改进的多数据流协同频繁项集挖掘算法.doc

改进的多数据流协同频繁项集挖掘算法　　摘要：针对已有的多数据流协同频繁项集挖掘算法存在内存占用率高以及发现频繁项集效率低的问题，提出了改进的多数据流协同频繁项集挖掘（MCMDStream）算法。首先，该算法利用单遍扫描数据库的字节序列滑动窗口挖掘算法发现数据流中的潜在频繁项集和频繁项集；其次，构建类似频繁模式树（FPTree）的压缩频繁模式树（CPTree）存储已发现的潜在频繁项集和频繁项集，同时更新CPTree树中每个节点生成的对数倾斜时间表中的频繁项计数；最后，通过汇总分析得出在多条数据流中多次出现的且有价值的频繁项集，即协同频繁项集。相比AStream和HStream算法，MCMDStream算法不仅能够提高多数据流中协同频繁项集挖掘的效率，并且还降低了内存空间的使用率。实验结果表明MCMDStream算法能够有效地应用于多数据流的协同频繁项集挖掘。　　关键词：　　流数据挖掘；多数据流；滑动窗口；频繁项集；协同频繁项集　　中图分类号： TP301.6 文献标志码：A 　　0引言　　随着万维网技术的迅速发展，复杂多样的数据呈现爆炸式增长。数据流作为一种特殊形态的数据已在众多领域中广泛地应用，例如网络实时监控的数据[1]、传感器采集的数据[2]和金融市场的证券交易信息等。相对于传统静态数据而言，流数据具有实时、连续、大量、不确定和随时间变化的特点，因此，在不断变化的流数据上进行频繁项集挖掘更具有挑战性。　　近年来，流数据频繁项集挖掘[3]成为研究的热点问题。1998年，Henzinger等[4]首次将流数据作为一种数据模型提出来。根据处理数据流时所采用的时序范围，将数据流模型划分为3个范畴：界标模型、快照模型和滑动窗口模型。以界标模型为基础，Manku等[5]提出了一种近似数据流频繁项集挖掘（Lossy Counting）算法，该算法能够有损耗地计算整个数据流中元素出现的近似频率，但因其效率不高、动态性不强；Yu等[6]提出了以假消极结果为导向在有限内存中挖掘数据流中频繁项集的流数据频繁模式挖掘（Frequent Data Stream Pattern Mining， FDPM）算法，但是Lossy Counting和FDPM算法只能得到近似的结果，因此，从流数据中获得当前准确频繁项集的科研成果随之涌现。Mozafari等[7]将滑动窗口引入数据流的传送中，并提出了一种新的技术概念Vertification，以此为基础设计了根据滑动窗口的大小调节性能和扩展性的滑动窗口增量挖掘（Sliding Window Incremental Miner， SWIM）算法。Leung等[8]构造了一种能够精确地挖掘数据流中频繁项集的新型树形索引结构（Data Stream Tree，请补充DSTree的英文全称。 DSTree）。以上算法只针对单数据流频繁项集的挖掘，但是结合当前的诸多应用，需要解决在多数据流环境[9-10]中频繁项集挖掘的问题，因此，Guo等[11]提出了HStream算法，目的是发现多数据流中的频繁项集问题。该算法以FPGrowth算法[12]为基础挖掘单条数据流中的频繁项集并将其频数存储于节点的自然倾斜时间窗口表中，通过汇总挖掘在多条数据流中多次出现的频繁项集。在此过程中需要多遍扫描数据库以及生成大量不必要的单位时间窗口，从而导致发现频繁项集时既耗时又浪费内存占用空间。　　针对上述HStream算法低效、内存利用率不高的问题，本文提出了一种基于滑动窗口的多数据流协同频繁项集挖掘（Mining Collaborative Frequent Itemsets in Multiple Data Stream， MCMDStream）算法。该算法首先通过基于字节序列的滑动窗口挖掘（Ming Frequent Itemsets within a TimeInterval Sliding Window based on based on bitsequence， TISWMFI）算法发现数据流中的潜在频繁项集和频繁项集；然后构建CPTree用来存储多数据流中的频繁项集和潜在频繁项集，同时更新树节点中对数倾斜时间表中项集对应的频数；最后汇总分析得出多数据流中的协同频繁项集。与HStream算法中HTree的自然倾斜时间窗口表相比，MCMDStream算法中新引入的对数倾斜时间窗口表能够增量更新CPTree；同时还能够大量地减少节点总数，从而降低了算法的维护代价与空间复杂度；本文新引入的TISWMFI算法相比HStream中的FPGrowth而言，能够减少对数据库的遍历次数以及查询时间，因此，MCMDStream算法具有更强的适应性和扩展性。　　1相关描述与问题定义　　设S={S1，S2