参与者讲述如何创建一个大数据平台?.docxVIP

参与者讲述如何创建一个大数据平台?.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1 PAGE 1 参与者讲述如何创建一个大数据平台? 亲身参与,作为主力完成了一个信息大数据分析平台。中间经历了许多问题,算是有些经验,因而作答。整体而言,大数据平台从平台部署和数据分析过程可分为如下几步。 徐晓鹏大数据实践者 亲身参与,作为主力完成了一个信息大数据分析平台。中间经历了许多问题,算是有些经验,因而作答。 整体而言,大数据平台从平台部署和数据分析过程可分为如下几步: 1、linux系统安装 一般使用开源版的Redhat系统–CentOS作为底层平台。为了供应稳定的硬件基础,在给硬盘做RAID和挂载数据存储节点的时,需要按状况配置。例如,可以选择给HDFS的namenode做RAID2以提高其稳定性,将数据存储与操作系统分别放置在不同硬盘上,以确保操作系统的正常运行。 2、分布式计算平台/组件安装 目前国内外的分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS,一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。 先说下使用开源组件的优点: 1)使用者众多,许多bug可以在网上找的答案(这往往是开发中最耗时的地方)。 2)开源组件一般免费,学习和维护相对便利。 3)开源组件一般会持续更新,供应必要的更新服务『当然还需要手动做更新操作』。 4)因为代码开源,若出bug可自由对源码作修改维护。 再简略讲讲各组件的功能。分布式集群的资源管理器一般用Yarn,『全名是YetAnotherResourceNegotiator』。常用的分布式数据数据『仓』库有Hive、Hbase。Hive可以用SQL查询『但效率略低』,Hbase可以快速『近实时』读取行。外部数据库导入导出需要用到Sqoop。Sqoop将数据从Oracle、MySQL等传统数据库导入Hive或Hbase。Zookeeper是供应数据同步服务,Yarn和Hbase需要它的支持。Impala是对hive的一个补充,可以实现高效的SQL查询。ElasticSearch是一个分布式的搜寻引擎。针对分析,目前最火的是Spark『此处忽视其他,如基础的MapReduce和Flink』。Spark在core上面有MLlib,SparkStreaming、SparkQL和GraphX等库,可以满意几乎全部常见数据分析需求。 值得一提的是,上面提到的组件,如何将其有机结合起来,完成某个任务,不是一个简洁的工作,可能会特别耗时。 3、数据导入 前面提到,数据导入的工具是Sqoop。用它可以将数据从文件或者传统数据库导入到分布式平台『一般主要导入到Hive,也可将数据导入到Hbase』。 4、数据分析 数据分析一般包括两个阶段:数据预处理和数据建模分析。 数据预处理是为后面的建模分析做预备,主要工作时从海量数据中提取可用特征,建立大宽表。这个过程可能会用到HiveSQL,SparkQL和Impala。 数据建模分析是针对预处理提取的特征/数据建模,得到想要的结果。如前面所提到的,这一块最好用的是Spark。常用的机器学习算法,如朴实贝叶斯、规律回归、决策树、神经网络、TFIDF、协同过滤等,都已经在MLlib里面,调用比较便利。 5、结果可视化及输出API 可视化一般式对结果或部分原始数据做展示。一般有两种状况,行数据展示,和列查找展示。在这里,要基于大数据平台做展示,会需要用到ElasticSearch和Hbase。Hbase供应快速『ms级别』的行查找。ElasticSearch可以实现列索引,供应快速列查找。 平台搭建主要问题: 1、稳定性Stability 理论上来说,稳定性是分布式系统最大的优势,因为它可以通过多台机器做数据及程序运行备份以确保系统稳定。但也由于大数据平台部署于多台机器上,配置不合适,也可能成为最大的问题。曾经遇到的一个问题是Hbase经常挂掉,主要原因是选购的硬盘质量较差。硬盘损坏有时会到导致Hbase同步出现问题,因而导致Hbase服务停止。由于硬盘质量较差,隔三差五会出现服务停止现象,耗费大量时间。结论:大数据平台相对于超算的确廉价,但是配置还是必需高于家用电脑的。 2、可扩展性Scalability 如何快速扩展已有大数据平台,在其基础上扩充新的机器是云计算等领

文档评论(0)

187****2259 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档