Hadoop论文.docxVIP

下载本文档

355
0
约3.74千字
约 5页
2019-01-11 发布于河北
举报
版权申诉

Hadoop论文.docx

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Hadoop论文

Hadoop论文内容摘要： HYPERLINK /view/908354.htm \t /_blank Hadoop是一个由Apache基金会所开发的 HYPERLINK /view/991489.htm \t /_blank 分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。 ? Hadoop实现了一个 HYPERLINK /view/771589.htm \t /_blank 分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高 HYPERLINK /view/2700299.htm \t /_blank 容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问 HYPERLINK /view/330120.htm \t /_blank 应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。 Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。正文：在课堂上，老师通过教我们使用虚拟机安装Linux系统ubuntu桌面系统，来使用这款软件，由于在非Windows下使用，对于操作命令不是很熟悉，以及Linux的使用不熟练，遇到了很多问题。例如网络问题，在VM下，网络可以自行连接也可以和本机共享，在windows自带的Hyper-v上使用时，就需要注意到网络的配置问题，这款虚拟机不会共享网络，而VirualBox却可以直接共享。安装好虚拟机和ubuntu系统后，接下来就是通过终端使用命令进行安装，这个终端和windows下的cmd类似，但是由于很少使用命令行，所以不熟悉。然后完成Hadoop的安装。为hadoop应用添加一个单独的用户，这样可以把安装过程和同一台机器上的其他软件分离开来，使得逻辑更加清晰。无论是在单机环境还是多机环境中，Hadoop均采用SSH来访问各个节点的信息。在单机环境中，需要配置SSH来使用户能访问localhost的信息。首先需要安装openssh-server。其次是配置SSH使得Hadoop应用能够实现无密码登录，输入命令切换用户，通过SSH访问localhost来验证安装是否成功。老师还介绍了，每台机器情况都不一样，出现的问题不同，那么解决问题的方法就不一样了，例如老师在安装失败时输出了log信息，找到了问题所在就解决了问题。这让我意识到，Linux系统由于开源所导致的不确定性很高，出现的问题也十分复杂，对于程序员来说可能比较好解决，但对于大多数人来说就显得很棘手了。安装完毕，接下来就是配置文件了，Hadoop的配置文件都放在/Hadoop/conf这个文件夹下面，主要是四个配置文件。配置好环境后，就可以开始使用了。 Hadoop自立门户：与Nutch若即若离　　众所周知，Nutch是一个由 HYPERLINK /article-9246-1.html?union_site=innerlink \t _blank Java实现的，刚刚诞生开放源代码(open-source)的web搜索引擎。Nutch与Hadoop本是同门师兄，从0.X版本开始，为了解决Nutch的海量数据爬取和存储的需要，Hadoop便自立门户，从Nutch中剥离出来成为一个开源子项目。Hadoop其实并非一个单纯用于存储的分布式文件系统，而是一个被设计用来在由普通硬件设备组成的大型集群上执行分布式应用的框架。Hadoop由两部分组成，包括一个分布式文件系统HDFS和一个MapReduce实现。简而言之，Hadoop的核心目标是为开发分布式应用提供一个框架。HDFS采用master/slave架构。一个HDFS集群是有一个Namenode和一定数目的Datanode组成。HDFS支持传统的层次型文件组织，与大多数其他文件系统类似，用户可以创建目录，并在其间创建、删除、移动和重命名文件。　　Hadoop的应用案例：Nutch与Hadoop携手海量数据搜索的分布式检索构架　　Nutch正是基于Hadoop开发的一个应用。基于Nutch的分布式搜索引擎的架构可以分割为分布式爬虫器、分布式文件存储系统(HDFS)、检索服务系统(Searcher)等几部分。分布式爬虫器的工作流程为：首先Crawler根据WebDB生成一个待抓取网页的URL集合叫做Fetchlist，接着下载线程Fetcher会开始根