爬虫和Hadoop经验文档.docxVIP

下载本文档

2
0
约1.32万字
约 18页
2017-03-15 发布于北京
举报
版权申诉

爬虫和Hadoop经验文档.docx

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Hadoop搭建Hadoop版本选择Hadoop的版本比较多，基本上每个参与Hadoop的大公司有发行的有自己的版本，例如Intel、IBM、阿里巴巴等均推出了自己的版本。在开源而且免费的领域里面，有两个版本比较有影响力，一个是Cloudera（CDH，Cloudera Distribution Hadoop），另外一个是Apache版本（官方原版）；Cloudera除了开源版本以外，还有自己的商业版本，并且也是在Hadoop领域里面领跑者。官方版本里面的很多代码都是来自Cloudera提交的，其很多bug的更新速度居然比官方开源的还要快，有很多公司都选用CDH版本构建自己的大数据平台（例如京东），Cloudera似乎找到了如何驾驭开源的办法，其对合作与竞争的尺度把握的十分精准，到目前为止其经营策略、技术路线没有重大失误，是为数不多的可以和Apache分庭抗礼的商业开源分支；当然，其自身强大的技术实力也是必要条件之一。另外一个比较值得称道的就是其文档质量明显优于官方版本，这些经验显然来自于其商业实施经验，其接触到了各类的客户，自然就有各类的产品，这几乎也反映了IT界的一个事实：世界级的问题，产生世界级的产品。从下图里面可以看到，CDH版本的进化速度明显快于官方版本。其官方网址为：/content/cloudera/en/home.html；和我们相关的产品的网址为：/content/cloudera/en/products-and-services/cdh.html其安装方法有三种，一种是使用Cloudera Manager进行安装，Cloudera Manager力图使用户变成小白，具有各种集成功能，如果推销这个产品，其PPT可达100多页，全是好处。这种努力在整个云计算里面几乎成为一种热潮，在大家纷纷一窝蜂的上云计算项目时，诸多厂商一致认为，开发一套有粘性的管理软件，定义带有本公司烙印的一套业务原语来绑架（黏住）用户，名为方便用户使用，是IT厂商成功的入门条件，当后来者再来推销产品的时候，就会被先前用户所接受的语义困扰，不得不被动接受我司的技术标准，然后在专利上面强奸友商；当然，前提是低价占领市场，这叫格局。这种经验在过去显然被证明了无数遍，并且Tencent使用QQ偷取天下的例子更是强化了这种判断。被赋予了如此恶毒任务的种种Manager的开发的过程极其苦逼，被各方部门的山头势力拉扯，充满了“平衡”。从我的经验来看，其功能可被一个正常的人来看懂，就已经不易了。从实际上面来看，种种Manager也一致被拒绝，Cloudera难以免俗，此路暂时先告一段落吧。另外一种就是RPM包进行安装，其提供了64bit的RHEL\CentOS的发行版的rpm包，但是其nativelib里面居然是空的！简直就是假冒伪劣~其实也能理解其为空的理由，因为这一部分本生就是平台（操作系统）相关的，了解这一部分的秘密需要由底层开发的相关经验。还剩下另外一种比较艰难的路，就是先编译，然后再安装使用，很多程序猿都在编译大型工程面前退缩，这也将至少二分之一有志于Hadoop领域的上进青年挡在了大数据殿堂的门外，只能当屌丝，能侃侃而谈，但其深入源码的时机被无限期推迟。不过，大家不用担心，我已经将编译的环境准备好了，请大家讲自己的办公机器升级到8G内存（实际上，越大越好），然后拷贝我的wmware10安装软件和虚拟机镜像就行了，剩下的事情就是动动手指了。只有开始动源码，才算是接近开源，这也是我坚持的看法。Hadoop安装流程以如下的机器为例?机器主机名HDFSMapreduceYarn(Mapreduce2.0)7HDS03NameNodeJobTrackerResourceManager8HDS03DateNodeTaskTrackerNodeManager9HDS03DateNodeTaskTrackerNodeManager基本环境设置主要是设置机器的网络环境和用户环境等修改主机名称#hostname HDS03#vim /etc/sysconfig/network修改文件内容HOSTNAME=HDS03以上修改完成了以后，需要重新登录，其他的所有机器按此规则配置。修改host文件#vim hosts在文件里面添加：7 HDS038 HDS049 HDS05拷贝到其他机器，保持一样的设置创建hadoop用户在root用户下面执行：#groupadd hadoop#useradd hadoop–g hadoop#passwd hadoop关闭防火墙#service iptables stop检测一下防火墙的状态#service iptables status#确下次重启的时候，防火墙也是关闭的状态：chkconfig iptables off配置无密钥ss