- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1
PAGE 1
认识数据湖——拥抱开源大数据技术的前提
世界对数据湖的兴趣依旧在不断增长,但假如说对数据湖的宣传都是烟雾弹的话,这就贬低了数据湖真正的能力。 世界对数据湖的兴趣依旧在不断增长,但假如说对数据湖的宣传都是烟雾弹的话,这就贬低了数据湖真正的能力。“数据仓库”和“大数据”等概念都渐渐深入人心,但“数据湖”仍旧是让IT和业务相关者头疼的一件事情。 随着人们对于数据湖的清楚定义、使用案例、最佳实践等信息的需求不断增长,IT专业人士需要一则明确的数据湖指南,回答以下问题:数据湖是什么?我们应当如何利用它?数据湖又将如何转变大数据呢? 1.定义及观点 数据湖成为了核心数据架构中发展得很快的一环,但IT专业人士常有疑惑,数据湖毕竟是一个架构策略还是架构的目标呢?实际上并没有清楚的界限,但仍旧有方法来解打算义的问题。数据湖是一个中央储存库,为多种数据工作负载储存企业数据;通过数据湖,终端架构可以得到解决,同时数据结构相关的决策也是建立数据湖时的关键。数据湖被越来越多的采用,而它的实施分为四个关键的阶段: 技术评估。通过进行大数据试验项目,关注几个特定的业务目标和成果,数据湖的使用者可以对这项技术进行测试,并熟识ApacheHadoop环境的管理。 做出反应。在这个阶段,各公司开始利用Hadoop来解决现有架构的低效率问题,确立清楚可测的业务机会。此外,这个接受过程对于IT效率的提高也是特别关键的。 主动利用。通过为分析项目合并数据以及利用Hadoop获得经济的可拓展性这两种手段,各公司可以在一个单一的中央存储中管理大量新出现的数据源,例如物联网、社交媒体和非结构化的数据。 建立核心竞争力。随着大数据成为IT战略的核心组成部分,各公司最终能够达到发展的高峰,消退全部业务应用和分析应用之间的隔阂,重新建立一个单一的企业平台。 2.数据湖的组织 得益于Hadoop的敏捷性和可拓展性,我们今日能够保存、分类、探索并利用的数据类型比以往任何时候都要多。但避免数据湖成为数据沼泽的关键在于数据治理,数据的组织和安全性也是打算数据探索成败的关键。一个清楚而有条理的数据组织(通常是按类目或者按数据用法划分)能够帮助Hadoop工程师建立更加完善的技术决策,帮助分析师和数据科学家从数据中获取真正的洞察。 3.统一数据探索、数据科学和商务智能 对于企业BI需求、数据探索和数据科学的支持是推动数据湖部署的主要因素,这三项技术能将原始数据用于机器学习算法和统计功能。因为机敏方法学为企业级BI供应了自适应途径,数据湖就能够落实更多详细的企业业务、性能指标和度量权值,同时可用于储存历史数据。布满竞争的商业环境让人目不暇接,各公司必需熟悉到探索技术的关键作用,并熟悉到解答未知的重要性。这刺激了我们的需要,要把数据直接用于分析技术,产生意义重大的洞察、为企业创造附加价值。 4.成功的关键 要帮助企业从他们的数据湖中实现最大化效益,就必需要考虑以下几个要素: 从长远角度考虑数据。在开始一个数据项目时,必需认真考虑数据在今后其他应用中的可重用性。要明白将来新产生的数据需求往往是不可预知的,了解这一点后公司就可以更好地相应预备并利用起他们的数据。 先确立数据治理结构。数据治理被应用在了整个企业的数据和信息政策当中,所以在考虑数据湖时也不应当例外。数据治理规范了企业中的每个人对数据湖的使用,并最小化了发生错误和不当数据管理的可能性。 预先解决安全问题。以数据为中心的安全保护供应了从整个数据的生命周期来看数据的宏大视角,此处的关键要素就是从第一天开始就正视安全问题,确立好哪些数据可以引入数据湖,并为数据湖中的各类数据制定使用权限。 尽管数据湖在大数据领域还是一个比较新的词汇,但它已经成为了企业级IT架构和整体数据战略的重要部分。数据湖战略拥有合理的架构,能够和数据科学以及成本低廉、拥有商业基础的机器学习分析完美结合。对于数据湖核心概念的了解能够帮助企业更好地利用并保护自己的数据,同时提高通过数据进行探索的能力。
您可能关注的文档
最近下载
- MX480路由器操作手册.doc VIP
- 医学课件-神经内科常见病.pptx VIP
- 电子支付与网络金融复习资料.doc VIP
- 2025年项目管理公司组织架构、岗位、职能设置方案.pdf VIP
- 2024安徽长丰科源村镇银行员工招聘20人笔试历年典型考题及考点剖析附带答案详解.docx VIP
- 普通心理学第五版PPT完整全套教学课件.pptx VIP
- 2023安徽长丰科源村镇银行招聘5人笔试历年典型考题及考点剖析附带答案详解.docx VIP
- 《GBT13341-1991-质量损失率的确定和核算方法》.pdf
- 节约用水条例培训解读课件.pptx VIP
- 山东省临沂市蒙阴县第一中学2024-2025学年高三下学期第三次模拟考试语文试题(含答案).pdf VIP
原创力文档


文档评论(0)