基于hadoop的数据挖掘算法并行化研究与实现1.1报告.docVIP

下载本文档

26
0
约3.8万字
约 49页
2017-01-16 发布于湖北
举报
版权申诉

基于hadoop的数据挖掘算法并行化研究与实现1.1报告.doc

1、本文档共49页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于hadoop的数据挖掘算法并行化研究与实现1.1报告

基于hadoop的数据挖掘算法并行化研究与实现摘要随着云计算技术的流行，，海量数据已经逐渐将我们包围。数据的不断增长给人们带来巨大价值，也给人们带来了巨大的挑战。已经成为很多大型企业所关注的焦点。是海量数据处理中较受关注的一个领域，企业通过对，不仅可以，但同时又具有海量，复杂等特点，面对现在飞速增长的，传统采用单机来处理的方式已经逐渐满足不了人们的需求，如何高效率的海量挖掘出有价值的信息，这是本文的一个关注的问题。 Hadoop主要的组件包括HDFS和MapReduce。HDFS是Hadoop集群提供的分布式文件系统，而MapReduce是一种分布式框架，通过这两者的结合，可以对海量的数据进行有效的处理。本文，通过与单机系统处理结果的对比，论证了Hadoop系统时的效率要高于单机目录基于hadoop的数据挖掘算法并行化研究与实现 1 第一章绪论 3 1.1 课题研究背景 3 1.2 研究现状 4 1.2.1 Hadoop研究现状 4 1.2.2 文本分类研究现状 5 1.3 本文的主要工作 5 1.4 论文的组织结构 5 第二章 Hadoop分布式框架概述 6 2.1 什么是Hadoop 6 2.2 HDFS分布式文件系统 7 2.2.1 HDFS设计思想 7 2.2.2 名字节点和数据节点 7 2.2.3 块的概念 9 2.2.4文件系统命名空间 9 第三章文本分类的原理 16 3.1 向量空间模型 16 3.2 中文分词 17 3.3 特征选择 18 3.3.1 卡方检验 19 3.3.2 信息增益 19 3.4 特征权重计算 20 3.4.1 什么是特征权重 20 3.4.2 TF/IDF 20 3.4.2 特征权重与特征选择的区别 21 3.5 文本分类算法 21 3.5.1朴素贝叶斯方法 21 3.5.2 支持向量机(SVM) 22 3.6 文本分类的评价体系 28 3.6.1 准确率(Precision)与召回率(Recall) 28 3.6.2 F值(F-measure) 28 第四章基于Hadoop平台的文本分类系统的设计 29 4.1 环境搭建与实验设计 29 4.1.1 系统环境配置 29 4.1.2 Hadoop集群配置 32 4.2文本表示过程的并行化 35 4.2.1 预处理和中文分词并行化 35 4.2.2 特征选择并行化 36 4.2.3 TF/IDF计算并行化 37 4.3 基于朴素贝叶斯文本分类的并行化 37 4.4 基于SVM文本分类的并行化 38 4.4.1 SVM并行化 38 4.4.3 MapReduce实现 41 4.4.4 基于Hadoop的SVM实现 42 第一章绪论 1.1 课题研究背景我们处在一个数据爆炸的时代，随着互联网技术的发展云计算技术的流行，，！仅仅以互联网技术的发展为例，各种，，社交网站等网站如雨后春笋般层出不穷。据统计，目前全球的Web站点已经达到数亿个，而且还在增长中。K近邻( KNN) 方法、朴素贝叶斯(Naive Bayes) 方法、神经网络方法(Neural Net) 、支持向量机( SVM) 方法和决策树方法(Decision Tree) 等。其中朴素贝叶斯分类方法是一种简单有效的概率分类方法, 在某些领域表现出很好的性能。就目前网络上的海量文本数据而言，传统的文本分类方法具有以下两点局限：一是分类效率低，互联网上动辄几十TB的文本数据如果使用传统单机的分类方式需要大量的时间；二是分类准确率不高，没有充分考虑特征权重对分类效果的影响。本文将主要针对基于Hadoop的文本分类并行化方法进行研究，着力提高海量文本数据下的文本分类效率和准确率。研究现状 1.2.1 Hadoop研究现状 Hadoop是Apache基金会的一个开源项目由Doug Cutting Apache Lucene的创始人所带领的团队幵发实现了 Google的GFS和MapReduce思想。目前Hadoop的最新版本是2012年12月1日发布的Hadoopl.1.1 并还在不断完善发展之中。其为开发者提供了一个分布式系统的基础架构用户可以在不了解分布式系统的底层细节的情况下来开发分布式应用充分利用集群的强大功能实现高速运算和存储。由于Hadoop优势突出不论在国内还是国外基于Hadoop的应用已经遍地开花尤其是在互联网领域。2008年2月雅虎宣布搭建出当时世界上最大的基于Hadoop的集群系统——Yahoo! Search Webmap 它们在2000个节点上执行了超过1万个Hadoop虚拟机器来处理超过5PB的网页内容分析大约1兆个网络连接之间的网页索引资料。著名SNS网站Fa