基于MapReduce的高效频繁子图挖掘方法研究-计算机软件与理论专业论文.docxVIP

  • 8
  • 0
  • 约5.42万字
  • 约 64页
  • 2019-02-13 发布于上海
  • 举报

基于MapReduce的高效频繁子图挖掘方法研究-计算机软件与理论专业论文.docx

基于MapReduce的高效频繁子图挖掘方法研究-计算机软件与理论专业论文

万方数据 万方数据 西安电子科技大学 学位论文创新性声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 日期 : 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读 学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件, 允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其 它复制手段保存论文。同时本人保证,毕业后结合学位论文研究课题再攥写的文章一律署名 单位为西安电子科技大学。 (保密的论文在解密后遵守此规定) 本学位论文属于保密在年解密后适用本授权书。 本人签名: 日期: 导师签名: 日期: 摘要 摘要 图挖掘的研究已经成为现今数据挖掘领域里重点研究方向之一,尤其是频繁 子图挖掘问题引起了广泛地关注。挖掘频繁子图为的是找到图集合里频繁存在的 子图集模式。由于得到的结果集能够运用到相似性搜索、图聚类和分类、图索引 等诸多图挖掘应用中,从而使频繁子图的挖掘成为一个颇具挑战的基础性研究问 题。 目前已有的频繁子图挖掘算法的高效率特性,通常基于图集规模不大,而且可 以一次全部调入内存的假设。但事实上伴随数据规模的逐渐扩大,许多海量规模 的图集合已经不能完全调进内存,当出现这种情况时,已有的挖掘频繁子图的算 法在运行性能上已经达不到要求。MapReduce 框架处理大规模数据时体现了很好 的性能,并且目前使用这个框架的频繁子图挖掘算法还很少。因此,研究基于 MapReduce 的高效频繁子图挖掘算法,将能够大大提高频繁子图挖掘的效率,更 有效地帮助用户了解图集的特征并在此基础上对图集进行深入处理。 本文在 Hadoop 平台上实现了一种基于 MapReduce 的高效频繁子图挖掘算法 Cloud-GFSG。算法基于 Apriori 思想,在扩展边生成新的子图时,使用已经挖掘出 的 k-1 阶的频繁子图生成 k 阶的频繁子图。同时,检查是否存在待扩展生成的子图, 设定生成频繁子图的表示规则,保证了频繁子图信息的唯一性。较同类算法相比, 本文提出的算法在挖掘频繁子图时更具有通用性,并且在扩展边时避免产生大量 的复制图,从而使得算法的正确性得以保证且运行时间效率显著提高。 关键词:云计算 频繁子图挖掘 MapReduce Hadoop Abstract Abstract Graph mining has been one of the most important research field in data mining, especially the frequent subgraph minging. The goal of mining frequent subgraph is finding the pattern of subgraph which occurs frequently in graphs. requent subgraph mining has been a basal research problem which is full of challenge since its result can be adopted in similarity searching, graph clustring and classification, graph indexing and so on. The assumption that the graph size is small enough so the memory can hold all graphs once a time.but now, as the growing of the data size, most big graphs cannot be hold all in memory once and the execution efficiency of the present algorithms for frequent subgraph mining cant meet the request.Fortunately, a better performace has ap

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档