- 1、本文档共22页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
Apacheranger是一个Hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的Hadoop生态圈的所有数据权限。ApacheSentry是Cloudera公司发布的一个Hadoop安全开源组件,其中Sentry是一个基于角色的粒度授权模块,提供了对Hadoop集群上经过身份验证的用户提供了控制和强制访问数据或数据特权的能力。它可以和Hive/Hcatalog、ApacheSolr和ClouderaImpala等集成,甚至还可以扩展到其他Hadoop生态系统组件,如HDFS和HBase。第7章数据治理大数据治理的核心是为业务提供持续的、可度量的价值。工业界IBM数据治理委员会给数据治理的定义如下:数据治理是一组流程,用来改变组织行为,利用和保护企业数据,将其作为一种战略资产。而学术界则将数据治理定义为一个指导决策确保企业的数据被正确使用的框架。一般来说,数据治理主要包括以下三部分工作:(1)定义数据资产的具体职责和决策权,应用角色分配决策需要执行的确切任务的决策和规范活动。(2)为数据管理实践制定企业范围的原则,标准,规则和策略。数据的一致性,可信性和准确性对于确保增值决策至关重要。(3)建立必要的流程,以提供对数据的连续监视和控制实践并帮助在不同组织职能部门之间执行与数据相关的决策,以及业务用户类别。数据治理涉及的领域目前常见的数据治理涉及的领域主要包括以下:数据资产、数据模型、元数据与元数据管理、数据标准、主数据管理、数据质量管理、数据管理生命周期、数据存储、数据交换、数据集成、数据安全、数据服务、数据价值、数据开发和数据仓库。(1)数据资产数据资产可定义为企业过去的交易或者事项形成的,由企业拥有或者控制的,预期会给企业带来经济利益的,以物理或电子的方式记录的数据资源,如文件资料、电子数据等。(2)数据模型数据模型是数据治理中的重要部分。理想的数据模型应该具有非冗余、稳定、一致、易用等特征。(3)元数据与元数据管理元数据,又称中介数据、中继数据,是描述数据的数据,是数据仓库的重要构件,是数据仓库的导航图,在数据源抽取、数据仓库应用开发、业务分析以及数据仓库服务等过程中都发挥着重要的作用。(4)数据标准标准是指为了在一定的范围内获得最佳秩序,经协商一致制定并由公认机构批准,共同使用的和重复使用的一种规范性文件。数据标准是指对数据的表达、格式及定义的一致约定,包括数据业务属性、技术属性和管理属性的统一定义。(5)主数据与主数据管理主数据是用来描述企业核心业务实体的数据,它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,并且存在于多个异构的应用系统中。(6)数据质量管理大数据应用必须建立在质量可靠的数据之上才有意义,建立在低质量甚至错误数据之上的应用有可能与其初心南辕北辙背道而驰。数据质量就是确保组织拥有的数据完整且准确,只有完整、准确的数据才可以供企业分析、共享使用。数据治理的实施与关键因素企业在实施数据治理项目时应该以业务需求为主导,支持业务应用识别数据,实现数据治理。数据只有得到有效应用才能产生业务价值,不管是企业建设数据平台,还是实施数据治理(管理)项目,本质上都是为数据运营(应用)服务的。由于数据治理工作本身会产生成本,所一定要抓住关键数据,确保驱动业务的数据质量不断提升。(1)组织架构在实际的数据治理项目实施中,有效的组织机构是项目成功的有力保证,为了达到项目预期目标,在项目开始之前对于组织机构及其责任分工做出规划是非常必要的。建立起合理的数据管理组织和管理体系是关键,如可由数据责任部门、数据使用部门、数据管理部门,数据技术支持部门(IT)构成“四位一体”管理模式。(2)流程在企业成立了相关的组织后要制定规范的流程,通过流程将数据治理项目打通,进而执行。通常来讲基本上是先有组织,再有流程。(3)数据标准有了组织和流程,就会涉及到数据标准这个层面,需要企业考虑数据要遵循什么样的标准,例如分类标准、属性标准,此外还会涉及到历史数据的清理和映射等等。(4)工具(数据平台)工具也就是数据治理相关的数据平台,具体是指企业的项目推进过程中使用的是哪种平台。谈到数据治理的平台,以市面上的现在的技术和系统来看,支撑数据治理已经不是难题了。目前市场上产品种类琳琅满目,企业的选型标准通常是:软件平台的稳定性较好、软件功能与企业业务的匹配程度较好等。(5)数据治理成熟度评估数据治理工作的成效如何去量化、衡量一直是个难题。因为企业不可能完全剥离其他因素的影响,单独去判定数据治理的效果。数据治理的关键因素数据仓库建模数据仓库是一个存在已久并且已经面临更替的概念。传统上,因为数据分析、
文档评论(0)