《ODPS介绍》-(课件).pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
阿里云ODPS简介 阿里云·互联网云计算·产品 王乐珩 自我介绍 王乐珩 () 目前在阿里云,任云计算业务线产品经理,主要负责数据分析领域。 此前在计算所生物信息组,任pFind蛋白质搜索引擎的架构师和程序经理。 什么是ODPS(一) 阿里云开放数据处理服务(Open Data Processing Service,简称ODPS) 是构建在飞天系统上的大规模分布式数据处理服务。 ODPS以REST API的形式,支持用户提交类SQL的查询语言,对海量数据进行处理。在API之上,还提供SDK开发包和命令行工具,A上还有一个Web演示界面。 什么是ODPS(二) 与传统数据仓库工具相比ODPS有以下优势: 处理能力强大:后面提到的“应用案例一”和“应用案例二”和“应用案例五”的客户都曾经购买使用过传统数据仓库技术解决方案,但是都无法适应剧烈膨胀的数据规模。 成本低廉,伸缩灵活:由于云计算的业务特点,用户可以根据自己的实际需求租用相应的计算能力。同时节省昂贵的运营费用。后面提到的“应用案例四” 和“应用案例五”的客户的支出,是与其网站业务量,以及产品线复杂程度一起增长的。 什么是ODPS(三) 与HIVE、Big Query相比ODPS有以下特点: 企业级特征:定制化ETL、窗口函数、存储过程、作业调度、M\R、UDF等。 项目支撑:项目空间和帐号授权机制(Project/ User/Role/ACL)。Quota和Priority的管理。 Web Service: RESTful API、多语言SDK、事件订阅。 ODPS与RDS、OTS的区别(一) 阿里云关系型数据库服务(Relational Database Service,简称RDS)是构建在弹性计算系统上的商用关系型数据库服务。 RDS适合较小数据规模的常规OLTP(online transactional processing)应用。如果用户的需求是把现有关系数据库服务(例如MySQL和SQL Server)迁移到云平台上,主要重视兼容性,可以选择RDS。 ODPS与RDS、OTS的区别(二) 阿里云开放结构化数据服务(Open Table Service,简称OTS)是构建在飞天系统之上的海量结构化和半结构化数据存储与实时查询的服务。 OTS服务的特点是大规模、低延时、强一致,其适用场景是对数据规模和实时性要求高的应用。 ODPS与RDS、OTS的区别(三) ODPS重点面向数据量大(TB级别)且实时性要求不高的OLAP(On-Line Analytical Processing),适用于构建数据仓库、海量数据统计、数据挖掘、数据商业智能等应用。 OTS和ODPS可以配合使用,前者支撑大规模并发的日常访问(例如铁路售票前台系统),然后每隔24小时就把交易数据推入ODPS支撑的数据仓库,利用后者进行进一步的业务分析。 在线计算与离线计算 在线计算(Online) 数据稀疏,一般情况半结构化 存取少量数据(单条或一个range) 响应实时,低延迟 每天响应请求次数达数千万 7*24小时服务 离线计算(Offline) 数据稠密,对数据结构化无要求 一经存储,不会改变 批量作业处理,几十分钟/作业,甚至数天 每天扫描数据可达数千亿条 在线计算的技术特点 注重随机存取性能 注重取值区间(Range) 的性能 文件块(Block)容量较小 索引(Index)较多,主键(Key)不易太大 需要一个主节点控制 各节点需要有守护进程 各节点内存占用较多 离线计算的技术特点 注重顺序存取性能 尽量减少不必扫描的数据,减少I/O 文件块(Block)一般较大 可以不用或少量索引(Index) 需要作业调度 除了像join这种操作,否则内存占用量不高 ODPS架构 系统模型 帐号(Account) 项目(Project ) 表( Table ) 查询( Query )和查询任务(Query Task) 导入导出任务(Import/ Export Task ) MapReduce任务(M/R Task) UDF任务(UDF Task) 作业(Job)和作业实例(Job Instance) 应用案例(一) 阿里金融的信用评估系统会自动分析小微企业的数据,例如企业通过支付宝进行的支付数据,最终算出信用评估和放贷额度。 截止2011年底,阿里金融对近30万家小微企业进行信用评估。累计投放96800家,投放贷款154亿,坏账率为交易额的0.76%。 阿里金融的数据仓库基于ODPS服务。 阿里金融的实时业务墙 阿里金融的数据仓库业务模型基于阿里云ODPS平台 阿里金融的数据模型任务(局部) 每个模型任务都是面向海量数据的大规模运算任务。

文档评论(0)

咪蒙 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档