- 3
- 0
- 约5.51万字
- 约 64页
- 2019-05-11 发布于上海
- 举报
南 京 邮 电 大 学
硕士学位论文摘要
学科、专业:工学 计算机软件与理论
研 究 方 向:基于网络的计算机软件应用技术
作 者:2009 级研究生 朱晓峰 指 导 教 师:李玲娟 教授
题 目:面向海量数据的快速挖掘算法研究
英 文 题 目:Research on Rapid Mining Algorithm for Massive Data
关 键 词:海量数据;关联规则增量挖掘;云计算
Keywords: Massive Data Incremental Mining of Association Rules Cloud Computing;
南京邮
南京邮电大学硕士研究生学位论文
摘要
摘 要
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中 的、人们事先未知的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人 们积累的数据量急剧增长,动辄以 TB 计算,如何从海量的数据中提取有用的信息已经成为 必须解决的问题。针对海量数据的挖掘,分布式并行处理和增量式处理是有效的解决方案。 云计算是一种新兴的共享基础架构的计算模型,它擅长处理大规模数据和进行大规模计 算,它是分布式计算的延伸和拓展,并行和分布是云计算的关键。因此本文结合云计算,以
关联规则的增量挖掘为切入点,提出解决海量数据快速挖掘的新思路。 本文介绍了数据挖掘的定义、功能、步骤和挑战,重点分析了关联规则挖掘算法;介绍
了云计算的概念、特点、形式和关键技术,重点分析了典型的云计算平台 Hadoop 的分布式 文件系统 HDFS 和并行编程模型 MapReduce 的实现原理。在此基础上,重点研究了关联规则 挖掘中大频繁项目集的并行化挖掘算法,提出了基于云计算的快速关联规则增量挖掘算法 C-FUP(Cloud Computing Based FUP);以提高并行化效率为目标,对 Hadoop 中 HDFS 的数 据集分配方法进行改进,设计了一种能根据集群中异构节点的计算性能进行数据集分配的方 法 DAMBNP(Dataset Allocation Method Based on Node Performance);并对 Hadoop 的性能进 行分析,针对其对大量小文件的处理能力不足的问题提出了解决思路。
为了验证所提出的算法和方法的有效性,本文设计了基于 Hadoop 的仿真实验,实验结 果表明,C-FUP 算法能够很好地适用于海量数据的关联规则增量挖掘,并具有良好的可伸缩 性和可扩展性;数据集分配方法 DAMBNP 能有效地提高 C-FUP 算法在云计算平台上的执行 效率。
论文对海量数据的快速挖掘做了有益的研究工作。 关键词:海量数据;关联规则增量挖掘;云计算
I
南京邮
南京邮电大学硕士研究生学位论文
ABSTRACT
ABSTRACT
Data mining is a procedure that extract information and knowledge which is implicit and not known in advance but potentially useful from a large number of incomplete, noisy, fuzzy, random data. With the rapid development of IT, people have accumulate more than hundreds of TB data. How to extract useful information from vast amounts of data must be addressed. For massive data mining, distributed parallel processing and incremental processing are effective solutions.
Cloud computing is an emerging computational model of the shared infrastructure, it specializes in large-scale data and large-scale computing, it is the extension and expansion of distributed computing. Parallel and distributed is the key to cloud computing. In this thesis, combination with cloud computing, taking the incremental mini
您可能关注的文档
- 空钩人物称能事前有龙眠今有济-国画专业毕业论文.docx
- 空芯光纤气体填充特性研究-物理电子学专业毕业论文.docx
- 黄海灵山湾和海州湾海域腹泻性贝毒季节变化规律研究-食品工程专业毕业论文.docx
- 黄河班多水电站工程布置与安全监测评价分析-水利工程专业毕业论文.docx
- 抗盐聚合物含油污水沉降特性及工艺适应性研究-环境工程专业毕业论文.docx
- 面向单幅图像的超分辨率的方法-计算机技术专业毕业论文.docx
- 面向Android与iOS平台的移动电子商务系统设计与实现-软件工程专业毕业论文.docx
- 慢性心力衰竭患者细胞因子的变化及其与神经内分泌的相关性研究-内科学专业毕业论文.docx
- 面向TB公司的战略性人力资源规划应用研究-工商管理专业毕业论文.docx
- 煤矿火灾预测预报气味识别技术的研究-矿业工程专业毕业论文.docx
最近下载
- 【基恩士】IG 系列 用户手册 (简体中文).pdf VIP
- 安徽财经大学《数值分析》2019-2020学年期末试卷.pdf VIP
- 《律师事务所退伙协议》.docx VIP
- SHS 01037—2019 球形储罐维护检修规程.docx VIP
- 文本教案半潜平台se23dec2012workshop binder.pdf VIP
- 《碳达峰碳中和政策法规汇编(2024年9月刊)》.pdf VIP
- 探索式软件测试方法在敏捷开发中的应用研究.docx VIP
- 中国行业标准 YY/T 1226-2022人乳头瘤病毒核酸(分型)检测试剂盒.pdf
- 延安市各区县地表水系图.pdf VIP
- 2025-2026学年一年级数学上册乐考非纸笔测试题(一)(人教版·新教材).docx VIP
原创力文档

文档评论(0)