基于AWS和CDH的大数据处理平台企业级架构的研究.docVIP

基于AWS和CDH的大数据处理平台企业级架构的研究.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于AWS和CDH的大数据处理平台企业级架构的研究

基于AWS和CDH的大数据处理平台企业级架构的研究 展辉辉 杨小平 华南师范大学 X 关注成功! 加关注后您将方便地在 我的关注中得到本文献的被引频次变化的通知! 新浪微博 腾讯微博 人人网 开心网 豆瓣网 网易微博 摘????要: 该期刊的目的是研究在企业生产环境下大数据架构的相关技术, 包括操作系统配置, Cloudera管理器安装, CDH集群部署和集群参数调优, Kerberos集成, LDAP集成, 保护传输中的数据安全和保护静态数据安全.生产环境依赖于AWS云服务。实验内容:CDH集群部署和集群参数调优;企业级身份验证系统kerberos;使用一个轻量级目录访问协议 (LDAP) 目录管理认证;当启动集群时用TLS/SSL服务器守护程序加载密钥;签名证书将被用在CDH集群环境;HDFS加密确保所有敏感数据在存储在磁盘之前被加密。 关键词: CDH; Kerberos; LDAP; TLS/SSL; 签名证书; 透明hdfs加密; AWS; 近年来, 随着社会的高速发展, 科技迅速进步, 信息流通越来越频繁, 数据量的也呈现为几何倍的增长。对于如何处理这些巨量的数据, 如何从这些数据的矿产中挖掘出金子, 成为各个企业日益关注的目标。传统的大数据计算框架都是搭建在本地计算机上, 这样做的好处是内网环境使得大数据平台相对安全, 但计算机群占地大, 硬件升级更换麻烦, 随着各大厂商开发出云计算服务, 使得有大数据计算需求的企业不必再局限于场地和计算机的配置, 本次实验就是基于亚马逊云服务的虚拟计算机。现如今, 企业和大型机构在寻求解决棘手的大数据问题时, 往往会使用开源软件基础架构Hadoop的服务:提供大数据计算平台服务的厂商也有很多比较出名的平台有CDH (Cloudera Distribution Hadoop) ;openstack;华为等;本文就是基于CDH管理平台的大数据架构的研究。 1 部署配置 1.1 集群配置 1.1.1 硬件配置 1.1.2 操作系统 Red Hat Enterprise Linux Server release6.7 (Santiago) 1.2 系统配置 (1) 禁用防火墙; (2) 禁用SELinux; (3) 禁用THP; (4) 禁用Swap。 1.3 外部软件和服务 (1) 配置Mysql数据库。我们使用AWS RDS作为外部数据库服务。数据库类型是My SQL5.5。由于RDS本身具有HA功能, 所以没有额外的步骤来配置HA。 (2) 配置必要的数据库。为相关的CDH组件编写数据库。这些数据库需要UTF-8支持。 表1 ?? 下载原表 (3) 配置本地yum源。 1.4 CDH部署 1.4.1 角色安排 如表1所示。 1.4.2 安装Cloudera Manager 在edgenode001, 执行如下指令: 1.4.3 部署CDH集群 (1) 我们可以访问Cloudera Manager网站http:// (yourip) :7180按照网站导航即可安装完成;username, password均为admin。 (2) 启用Navigator数据管理仪表板。 Cloudera Navigator数据管理仪表板能够捕捉到的各种数据, 元数据信息, 用户的工作和数据处理。 (3) HA部署。 1.HDFS HA部署 2.YARN HA部署 2 实验过程 2.1 kerberos服务 (1) 安装kerberos相关安装包在master节点, 编辑相关配置文件:kdc.conf, kadm5.ac, ;krb5.conf;初始化KDC数据库:kdb5_util create-s;开启KDC服务和kadmin守护进程。 (2) kerberos HA部署。Kerberos的设计目的是允许主/从复制集群。虽然Kerberos集群可以由任意数量的主机组成, 但建议您至少有两个主机。master作为主服务器和至少一个slave作为master的主备份。主服务器和从服务器可以分别被认为是主服务器和辅助服务。 Kerberos客户机应用程序设计用于在主服务器关闭时尝试通过辅助服务器进行身份验证。因此, 在系统故障未能通过Kerberos身份验证服务到备份服务器时, 您不需要做任何额外的工作。但是Kerberos的管理特性不提供自动故障转移。 (3) Kerberos与Cloudera Manager整合。部署kerberos客户端在每台节点上, 通过Cloudera Manager控制台完成操作向导。 2.2 Open LADP服务 (1) 安装openldap相关安装包;编辑相关配置文件。 (2) Open LADP与Hue整合。 (3) Open LADP

文档评论(0)

zijingling + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档