Hadoop总体架构设计建议_安全.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop总体架构设计建议_安全

Hadoop应用点总体架构设计建议 总体架构规划 平台愿景 联动优势hadoop平台总包含以下几大模块: 数据平台:数据平台提供对最原始数据的存储,以及ETL,为上层系统提供数据支撑,其中数据平台功能包括,数据存储、离线处理、在线处理、数据导入导出。 应用平台:如查询系统、风控系统构建在数据平台以及数据产品之上。 内部运行支撑应用环境:主要指能够支撑平台稳定运行的各种系统与工具,如调度系统、监控系统、管理系统等 数据产品:数据产品以数据平台为基础,应用各种分析方式、挖掘算法包装出一些列的数据产品,比如UserProfile等 数据处理流程 日志采集:由现有的业务系统通过分布式日志采集系统,将非结构化业务日志采集到HDFS上,同时日志采集系统包含日志分发模块,可以将日志分发到实时计算框架中。 离线处理:主要针对存储到HDFS上的日志通过pig、mapreduce、hive等离线处理框架进行离线处理,并可以通过sqoop将结果导入到Hbase、mysql等存储中 在线处理:通过日志转发模块给Storm集群转发实时日志,Storm将数据实时处理并将计算结果存储到Hbase等大吞吐量的key-value数据库中,供前段应用实时查询 数据展示:前端应用通过缓存层将数据库中的数据进行一次缓存,达到良好的用户体验 实施战略技术路线 平台架构路线可以分为三步骤: 离线期:根据当前情况,实现HDFS的离线处理就能够满足业务需求,这一期间需要把Hadoop基本平台构建完备(安全、规范、流程这个很重要),数据采集系统构建。以需求驱动架构,根据本人经验大概需要一个季度的时间可以将离线期架构的模块稳定运行。 实时期:在离线期结束后,我们对大数据处理的轮廓也有了,以及遇到的一些问题也相应的解决,这时期主要针对具体的某个实时应用场景,将实时计算模块构建出来,storm+hbase,简单会应用这些技术难度不会太大,最主要是要制定相应的使用流程和规范,为后续运营铺垫 综合期:该时期主要是针对前两个计算模块开始搭建相应的监控系统、使得系统稳定、易用、好用,这个时期的工作要根据具体出现的问题和情况灵活调配。 存储平台 存储平台:底层主要采用HDFS分布式文件系统来支撑, Hortonworks CTO Eric在2012全球大数据峰会上指出未来90%的数据都将存储在HDFS上。各大厂商的计算框架在设计上都要以支持HDFS为第一前提。 数据平台在实施中需要考虑到几大问题:安全问题、平台规范、平台监控。 平台安全 通常数据平台的构建都着重于可扩展性、高可用性等,在设计上忽略了对数据安全的考虑。 在hadoop0.20x的版本上,Hadoop并没对安全做过多的考虑与设计,所以在先前的Hadoop版本中存在诸多安全问题。 安全问题 Linux终端的随意连接 Hadoop集群并没对连接其服务的Linux终端做任何的身份认证,所以任何知道其服务地址的用户都可以配置任务的Linux客户端连接Hadoop集群,直接在其拥有root权限的终端操作集群。Hadoop的默认用户权限是基于Linux终端的用户组信息,假设HDFS的超级管理员是Hadoop用户,本来我们分配出来的终端,每个用户在终端上只有自己的一个特定账户,而且该账户对应了HDFS上的账户,这样在操作上就能够给控制到用户相关的权限。现在如果某用户A通过另一台未知的Linux终端连接到我们的集群(这个只要用户知道我们的集群地址就可以配置),并且该用户拥有这个终端的root账户,那么该用户就可以通过这个终端操作任何HDFS用户的数据,这个对开放的数据平台来说是极度的不安全。所以我们在研究解决这个问题需要达到的目标是连接集群的Linux终端是我们可控制的,不能通过用户随意添加。 非法应用的连接 一般我们都可以开发一些应用连接Hadoop的HDFS服务,比如日志采集系统将外部的业务系统采集过来的日志直接上传到HDFS上。在之前的数据平台并没对第三方应用做一些身份认证,任何APP只要知道其服务地址就可以往HDFS上存储数据,修改数据,这样对现有的数据是极其的不安全。同时还可以开发一些私有的应用程序用来过度的消耗数据平台的计算资源,导致日常的业务计算得不到足够的计算资源影响正常的业务报表。所以我们针对这个问题的研究重点是对第三方的应用程序需要设计一套认证方案,使得任何应用程序要连接数据平台的应用都要事先申请一个token,这个token可以是永久的也可以的临时,然后才能使用数据平台的服务。 用户身份的冒充 在我们提交的MapReduce客户端程序中,只需要将的属性设置成你期望冒充的身份你就可以以该身份进行作业提交。这个将导致其一:A用户冒充B用户提交作业,访问本来A用户并没有权限访问的数据,其

文档评论(0)

sd7f8dgh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档