大数据存储多少不重要 分析的应用更关键.docVIP

大数据存储多少不重要 分析的应用更关键.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据存储多少不重要 分析的应用更关键

大数据存储多少不重要 分析的应用更关键   “把大量数据通过低成本的方式存储起来并不是最重要的,你有多少大数据也不是最重要的,最重要的是分析数据,使其发挥出最大价值。”5月6日,在北京国贸大酒店举办的“2016 Teradata大数据峰会”上,Teradata天睿公司首席技术官宝立明(Stephen Brobst)如是说。   本届峰会邀请德国沃达丰、沙特电信STC、富国银行、中国建设银行、中国光大银行、浦发银行、中信银行、英国TSB银行,以及eBay等全球不同行业企业到会并分享了以数据驱动企业发展的经验。   数据的收集、策管与分析   宝立明认为,企业探索大数据主要分为收集(Capture)、策管(Curation)和分析(Analysis)三部分。数据收集主要是将内外部数据采集存储至平台,供数据工程师或者数据科学家来存取使用;数据策管,也就是数据治理,主要是采用不同的策略方法对不同格式、不同来源的数据进行处理,建立可描述的数据存储模式和治理结构,进行周期性管理,这是现在企业的痛点和难点所在;但实际上,对企业最有价值的是数据分析,只有找出数据之间的关联性或者可分析预测的模式才是最重要的。   Teradata天睿公司大中华区首席执行官辛儿伦(Aaron Hsin)在会上介绍,企业数据分析流程是IT、数据部门与公司内外部的最终用户共同定义一个认可的价值场景,并进行数据采集、获取、整合、建立模型、查询以及分析应用的过程。在这个过程中,常常会遇到不同数据来源的数据结构度不同,不同应用场景对数据的精确度要求不同,数据分析应用所要求的反应敏捷度不同,以及数据在不同来源之间的关系性不强或者不确定,数据本身的易用性不同,数据对每个场景的价值和含金量也不同等问题。为有效满足这些需求,就像本届峰会提出的主题“数据仓库、开源融合、极致演绎”一样,企业需要融合各种技术来发现数据的价值。   辛儿伦表示,当今数据分析专业领域,已经无法通过采用单一平台,或是单一技术就能有效满足大数据分析需求,需要构建下一代大数据分析生态系统。如何有效应对数据之间的差异,建立数据管理体系及架构,整合统一管理数据,提升使用者满意度,是所有企业都要面临的问题。而Teradata提供的方法就是采用统一数据架构(Unified Data Architecture)。   记者在以前的采访报道中曾经写过, UDA是将多种技术整合到一个紧密结合的、透明开放的架构中,等于给数据分析人员一把“瑞士军刀”,用不同样式的工具让用户发现大数据中潜藏的价值。而近来Teradata积极拥抱开源技术,让这把“瑞士军刀”的刀片越来越丰富了。   开源 融合   作为CTO,麻省理工博士毕业的宝立明是业界公认的数据仓库技术的一流专家,他于1999年就加入Teradata,此前曾任教波士顿大学和麻省理工学院,也曾成功创办三家数据库相关企业,同时他也是个不折不扣的开源拥护者。在会上,他介绍了目前数据分析领域的最新技术和做法,包括延迟绑定(Late Binding)、QueryGrid、Presto、Kafka、JSON等。   延迟绑定技术是一种数据处理模式,这种技术不会在获取数据时就定义数据结构,而是要在使用数据,也就是在查询、读取时才建立数据结构,做加载、清洗和转换,如此一来,可以为企业降低数据成本并保持数据应用的灵活性。   宝立明介绍,QueryGrid是一种互操作技术,可以实现Teradata与其他数据库产品的互通操作。据记者了解,几年前,Teradata 和 Hortonworks合作开发了 Teradata SQL-H和 Teradata Aster SQL-H连接器,用于在 Hadoop 平台上的 Hadoop 分布式文件系统 (HDFS) 与 Teradata 或 Teradata Aster 系统之间移动数据。 现在这些连接器被合并到更广泛的 QueryGrid 连接器套件中。这种效率不仅能够消除瓶颈,而且还改变了分析的工作流程。使用 QueryGrid,业务分析人员每分钟可以提出更多问题并获得更多答案,从而实现更深入的探索,更好地研究业务问题。其实,在2014年Teradata已经推出QueryGrid,功能已经越来越完备,目前已经能实现对ORCALE、 SAS、 MONGDB等数据库的无缝查询。   “我们也与Facebook联合开发了Presto。”宝立明介绍。Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,适合解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。 Presto支持在线数据查询,包括Hive、Cassandra、关系数据库以及专有数据存储。Teradata为Presto提供经验丰富的可靠支持,

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档