面向海量数据的快速挖掘算法研究-计算机软件与理论专业毕业论文.docxVIP

  • 3
  • 0
  • 约5.51万字
  • 约 64页
  • 2019-05-11 发布于上海
  • 举报

面向海量数据的快速挖掘算法研究-计算机软件与理论专业毕业论文.docx

南 京 邮 电 大 学 硕士学位论文摘要 学科、专业:工学 计算机软件与理论 研 究 方 向:基于网络的计算机软件应用技术 作 者:2009 级研究生 朱晓峰 指 导 教 师:李玲娟 教授 题 目:面向海量数据的快速挖掘算法研究 英 文 题 目:Research on Rapid Mining Algorithm for Massive Data 关 键 词:海量数据;关联规则增量挖掘;云计算 Keywords: Massive Data Incremental Mining of Association Rules Cloud Computing; 南京邮 南京邮电大学硕士研究生学位论文 摘要 摘 要 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中 的、人们事先未知的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人 们积累的数据量急剧增长,动辄以 TB 计算,如何从海量的数据中提取有用的信息已经成为 必须解决的问题。针对海量数据的挖掘,分布式并行处理和增量式处理是有效的解决方案。 云计算是一种新兴的共享基础架构的计算模型,它擅长处理大规模数据和进行大规模计 算,它是分布式计算的延伸和拓展,并行和分布是云计算的关键。因此本文结合云计算,以 关联规则的增量挖掘为切入点,提出解决海量数据快速挖掘的新思路。 本文介绍了数据挖掘的定义、功能、步骤和挑战,重点分析了关联规则挖掘算法;介绍 了云计算的概念、特点、形式和关键技术,重点分析了典型的云计算平台 Hadoop 的分布式 文件系统 HDFS 和并行编程模型 MapReduce 的实现原理。在此基础上,重点研究了关联规则 挖掘中大频繁项目集的并行化挖掘算法,提出了基于云计算的快速关联规则增量挖掘算法 C-FUP(Cloud Computing Based FUP);以提高并行化效率为目标,对 Hadoop 中 HDFS 的数 据集分配方法进行改进,设计了一种能根据集群中异构节点的计算性能进行数据集分配的方 法 DAMBNP(Dataset Allocation Method Based on Node Performance);并对 Hadoop 的性能进 行分析,针对其对大量小文件的处理能力不足的问题提出了解决思路。 为了验证所提出的算法和方法的有效性,本文设计了基于 Hadoop 的仿真实验,实验结 果表明,C-FUP 算法能够很好地适用于海量数据的关联规则增量挖掘,并具有良好的可伸缩 性和可扩展性;数据集分配方法 DAMBNP 能有效地提高 C-FUP 算法在云计算平台上的执行 效率。 论文对海量数据的快速挖掘做了有益的研究工作。 关键词:海量数据;关联规则增量挖掘;云计算 I 南京邮 南京邮电大学硕士研究生学位论文 ABSTRACT ABSTRACT Data mining is a procedure that extract information and knowledge which is implicit and not known in advance but potentially useful from a large number of incomplete, noisy, fuzzy, random data. With the rapid development of IT, people have accumulate more than hundreds of TB data. How to extract useful information from vast amounts of data must be addressed. For massive data mining, distributed parallel processing and incremental processing are effective solutions. Cloud computing is an emerging computational model of the shared infrastructure, it specializes in large-scale data and large-scale computing, it is the extension and expansion of distributed computing. Parallel and distributed is the key to cloud computing. In this thesis, combination with cloud computing, taking the incremental mini

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档