数据流摄取.pptxVIP

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据流摄取.pptx

OLTP ON HADOOP天云融创数据科技(北京)有限公司-- 乔旺龙当前大数据的现状目录理论基础2413架构介绍案例分享前言数据流摄取数据流摄取功能,允许用户得到数据的一致视图,同时避免产生过多的文件为什么需要ACIDHive从0.13版本后加入了ACID的支持缓慢变化维INSERT 、UPDATE和DELETE这些操纵被支持,缓慢变化维成为可能数据重述依赖于INSERT ... VALUES、UPDATE和DELETE这些操作的支持当前大数据的现状1当前大数据的现状Tez?Solr?Storm?MPI?MR?Spark?Impala?Hbase?Pregel?Kafka?Hive?Databus?Ooize?Falcon?Ad HocQueryGraphIndexBatchStreamIn memoryNoSQL任务调度框架:YARNCORE数据存储框架:HDFS 现状说明Hadoop生态系统整个生态体系在不断完善,对应的组件也在不断的增多,应对的是适应的场景也不断的增加,但有一个场景却一直没有涉及到。如下是目前hadoop生态所涉及的部分场景:NoSql图计算索引检索批处理流计算 为什么没涉及到????理论基础2CAP理论CAP在一个分布式系统中,不可能同时满足这三个需求,最多只能满足两个。 事务ACID通过BDRT事务控制层保持分布式系统数据事务针对ACID,能够保证数据的强一致性。针对OLTP工作负载,能够快速低延迟的访问数据。 持久性(Durability)原子性(Atomicity)隔离性(Isolation)一致性(Consistency) 要到达目标实时高并发查询灵活查询方式需要从海量的历史、实时数据中快速获取有用信息支持高并发查询多种查询方式组合应用需要count/group by等复杂应用。封装多种查询调用接口,方便系统对接查询应用海量数据支持事务支持重要程度接近核心应用,对数据丢失零容忍。对数据有ACID的要求。数据量不断增大,需要高速的在线读写。支持横向扩展,扩容成本低海量存储,全量数据处理WE TIRED!架构介绍3高性能查询引擎 BDRTBDRT:全称 BeagleData Realtime Transaction能够快速低延迟的访问数据传统大数据BDRT数据一致性不支持支持易用性学习成本高,需要了解更多组件更加简洁易用,提供良好的接口支持易维护性配置复杂、参数繁多无需关心底层OLTP支持弱强高并发一句话BDRT:大规模高并发支持灵活查询的实时查询引擎针对开发人员,简化使用的复杂度,降低开发成本提供多种读写接口,与大数据生态完美结合 产品架构 BDRT应用场景A-预定义全量查询在线查询C-交易类减负核心减负事务处理应对场景B-即系查询灵活查询实时响应D-大量数据强一致性海量数据有强一致性要求 产品集成OLTP,业务特点决定其要求:高可用性,一致性, 响应时间短,支持事务。OLAP,针对特定问题的联机数据访问和分析。通过信息的多种可能的观察形式进行快速、稳定一致和交互性的存取。BDRT与BDP平台无缝集成,通过API实现对数据OLTP和OLAP的操作的支持。SQL(calcite)RESTBDRT SDKBDRT COREBDRT事务处理存储接口层BDRTFileOLTPBDP平台Hadoop BDRT系统架构应用1应用2应用3应用4应用5应用6…FTPJAVA、pychon、scala SDKRESTSQLMQ事务控制层Sqoop统一下层接口flumekafkaBdrtFileOLTPHDFS交换平台 性能对比案例分享4 某大型股份制商业银行Hadoop技术在国内银行首次核心业务系统落地2014年度中国金融行业最佳创新项目奖全量业务数据在线双活双集群数据量:200亿条日增量:千万条查询响应:毫秒级…OLTP DATA在线流数据前端应用BDRTFlumeIndexed dataGolive updatesRaw,filtered,or annotated dataHDFSSpark Batch Indexing w/Morphlines 某数据服务项目 历史数据量:3200亿条 每天入库量:600亿条 集群规模与配置?节点数:40台?单台节点内存:128G?单台机器硬盘:10块 * 2TB?单台机器CPU:2颗?网卡:万兆 1)任意条件的模糊查询 响应时间 毫秒级?2)指定字段的精确查询 响应时间?毫秒级?3)任意多个字段与或关系组合 响应时间?毫秒级?4)任意字段的值的分组条数统计 响应时间?秒级?5)查询结果进一步查询过滤 响应时间?秒级?6)任意两表指定字段关联 响应时间?秒级?7)查询结果统计分类?响应时间?秒级?……….. 风控系统 欢迎关注THANK YOUHadoop 和

文档评论(0)

189****0315 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档