密集型数据最大频繁模式挖掘方法研究.docxVIP

密集型数据最大频繁模式挖掘方法研究.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
? ? 密集型数据最大频繁模式挖掘方法研究 ? ? 何 昀,张继夫,闫 彬 (空军航空大学,吉林 长春 130021) 1 引言 随着数据采集设备和数据库技术的不断发展,人们可以存储的数据越来越多,在此背景下,企业数据库中存在的数据飞速增加。利用目前数据分析工具在密集型数据中挖掘最大频繁模式的难度较大[1],需要对最大频繁模式挖掘算法[2]进行研究,最大频繁模式挖掘算法可以在大型数据仓库或数据库中提取有用信息。最大频繁模式挖掘算法是信息决策领域和数据库领域中的热点研究内容[3]。 吴磊[4]等人结合FP-growth算法和Apriori算法在事务映射区间求交的基础上对数据集进行扫描,根据扫描结果构建FP树,对FP树的ID进行映射处理,采用区间求交方式实现模式增长,完成挖掘。周忠玉[5]等人通过滑动窗口技术对数据进行客观化处理,方便后续的数据挖掘,结合双向遍历技术和挖掘最小稀有模式实现数据挖掘。以上两种方法无法消除数据中存在的噪声,存在去噪性能差、挖掘效率低和挖掘准确率低的问题。 为了解决上述方法中存在的问题,提出密集型数据最大频繁模式挖掘方法。 2 密集型数据预处理 密集型数据最大频繁模式挖掘方法在压缩感知理论的基础上采用曲波变换方法对密集型数据进行去噪处理。 2.1 理论模型 密集型数据最大频繁模式挖掘方法用s(i)描述第i个采样点处的原始数据信号,v(i)描述第i个采样点处的白噪声,在第i个采样点处存在噪声的数据可用下式表示 d(i)=s(i)+v(i) (1) 通过稀疏域表示数据信号 D(k)=S(k)+V(k) (2) 式中,k为稀疏域变量;S(k)为原始信号s(i)在稀疏域的表示;V(k)为白噪声v(i)在稀疏域的表示。 用N表示数据长度,排列存在噪声的数据信号,获得N×1维的列向量DT,其表达式如下 DT=[D(0),…,D(k),…,D(N-1)] (3) 通过上述方法获得列向量S、V。 原始数据s可通过下式计算得到 (4) 式中,ψ=[ψ1,ψ2,…,ψi,…,ψN]代表的是基函数向量存在于稀疏变换域中;c=[c1,c2,…,ci,…,cN]代表的是曲波系数,其中,ci=[s,ψi]。 2.2 重构算法 (5) (6) 综合上述公式,获得下式 (7) 2.3 去噪流程 采用曲波变换方法[9]对数据进行去噪处理的具体流程如图1所示。 图1 数据去噪流程 1)初始化,设置最大迭代次数L=aN,其中,a为常数,在区间[0,1]内取值;数据的初始噪声能量为eσ,将原子集合矩阵Θ设置为空矩阵,残差r(0)=d。 2)通过下式计算相似度cj cj= (8) 3)根据上述计算结果,获得最大相似度列对应的位置索引Ji。 4)对原子集合矩阵进行更新,Θi+1=Θi∪ΨJi,ΨJi代表的是位置索引Ji所指的向量。 5)对残差进行更新,并计算信号对应的最小二乘估计 (9) 7)获得去噪后的数据=Θic。 3 密集型数据最大频繁模式挖掘方法 3.1 分布式窗口DW-Tree 在FP-Tree的基础上建立分布式窗口DW-Tree,FP-Tree和DW-Tree之间的差异如下: 1)大部分节点在FP-Tree中都存在node-link数据域、count数据域和item-name数据域,设置二维向量T[i,j],对节点在DW-Tree对应的count域进行描述,节点更新过程中二维向量T[i,j]的主要作用是存储数据流更新节点的时间点,T[i,j]存在的元素数量即为节点在DW-Tree中的总支持数; 2)DW-Tree中节点的排序符合全序关系,而FP-Tree按照支持数大小从上到下地对节点进行排序; 3)FP-Tree中的索引工作通常情况下由数据项完成,项在频繁数据项头中的排列顺序是依据支持数确定的。DW-Tree中存在的数据项通过数据项头表完成索引,并通过全序列关系排列表中存在的项; 4)频繁数据项头在FP-Tree中对应着node-link数据域和item-name数据域,DW-Tree与FP-Tree不同,在项头表中增添了两个向量,分别是count[i]和T[i],增添向量count[i]可以存储数据流在DW-Tree中的支持数,增添向量T[i]可以存储窗口树更新的时间; 5)FP-Tree中大部分节点都存在较为完整的数据集,但根节点的数据域在FP-Tree中的完整度较低,节点在DW-Tree中都对应着item-name数据域,但分项不存在该数据域; 6)数据库中的频繁项,均包含在FP-Tree的频繁数据项头表中。 通过上述分析可知,与FP-Tree相比,DW-Tree可以更好地完成密集数据最大频繁模式挖掘的任务。 3.2 挖掘框架 与其它架构相比,MapReduce架构的容错性好,扩展性高,属于分布式计算架构,将其作为密集型数

文档评论(0)

布丁文库 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体 重庆微铭汇信息技术有限公司
IP属地上海
统一社会信用代码/组织机构代码
91500108305191485W

1亿VIP精品文档

相关文档