- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网易视频云专家分享GoogleMesa论文笔记
网易视频云专家分享:Google Mesa论文笔记 网易视频云是网易公司旗下的视频云服务产品,以Paas服务模式,向开发者提供音视频编解码SDK和开放API,助力APP接入音视频功能。现在,网易视频云的技术专家给大家分享一篇技术性文章:Google Mesa论文笔记。 Mesa是Google用于广告的数据仓库系统, 拥有准实时的数据更新能力, 和低延迟的数据查询性能。 系统高可用性、可靠性、扩展性都非常优秀, 数据规模可达PB级别, 支持每秒数百万行写入。 每天数十亿查询请求 。 Mesa的设计目标: 原子更新。 单个用户操作可能会涉及多项关系数据更新, 影响数据仓库中数千个物化视图, 表和视图必须原子更新, 避免读到不一致的结果。 一致性和正确性。 在多机房部署的情况下, 仍然保证强一致性, 可重复读。 可用性。没有任何单点, 能容忍整个机房故障。 准实时更新。 每秒数百万行更新吞吐率, 分钟级别数据更新延迟。 查询性能。 同时支持低延时的在线报表业务,和高吞吐的批量业务。 99%的点查询(查询一条记录)在100ms内完成, 查询吞吐率可达到每天万亿行。 扩展性。 万亿行数据 , 达到PB存储量。 在线修改表结构。 Mesa的数据模型是数据立方体, 表包含多个维度属性(keys), 和多个度量属性(values)。 表上可定义物化视图, 譬如表C是定义在表B上的物化视图, 其定义查询为SELECT SUM(Clicks), SUM(Cost) GROUP BY AdvertiserId, Country。 物化视图可以提高查询效率, 当然也放大了数据更新量, 因为系统必须维护父表和物化视图的数据一致性 。 多版本机制 更新采用批量方式。 一段时间内(通常是几分钟)的更新操作累积在一起, 批量更新入库。 与关系数据库MVCC机制类似, 一批更新操作产生一个新版本(版本号从0开始连续编号), 查询都是针对一个特定版本的数据快照, 所以更新操作不会影响到查询一致性。 物理存储和索引结构 Mesa底层是一个KV存储结构, 所有维度属性作为key, 度量属性作为Value。 如下图所示, Mesa使用与Leveldb类似的两层delta结构存储KV。 singleton代表一次update操作产生的delta, cumulatives代表多个版本的累计delta, base是所有历史更新积累而成的基础数据。多个singleton定期合并形成cumulatives, cumulatives定期合并到base。 通过这种方式, mesa支持到分钟级(5分钟)的数据更新延迟,且保证了查询性能。 Mesa表和索引采用相同的存储方式, 各自有各自的两层delta结构。 base/cumulative/singleton按照索引key顺序组织成多个数据文件, 存储于Colossus。 每个索引都会存储完整的记录, 所以查询时不存在回表操作。数据文件分为多个大小相近的row blocks, row block内部按照列存来组织并压缩, 以获得较高的压缩比。 提取row block首key的固定长度前缀构成数据文件摘要索引。查找记录时先从摘要索引定位row block, 解压缩row block相关列,进一步在row block中定位记录。 查询 Mesa查询通过查询服务器来实现, 没有实现类似Google兄弟产品powerdrill或者dremel类似的多层树状查询执行模型, 如果查询涉及的数据量较大时,性能会有瓶颈。 Mesa提供的查询能力也比较有限, 只是一些简单的条件过滤和group by, 高层数据库引擎比如MySQL,F1,Dremel可基于mesa的查询能力提供更强大的SQL能力,比如join query。 Mesa通过查询的标签区分在线查询和离线批量查询, 避免这两者相互干扰,能同时满足两种类型查询需求。 Mesa实现了一些基本的查询优化措施: 1) delta pruning。 根据delta的key范围跳过一些不命中的delta。理论上mesa也可以利用row block的统计调过一些不满足的block, 但是文章没有提到这种优化措施。 2) scan-to-seek优化, (A,B)两列索引,如果查询只指定了B上条件, 也尽量利用索引调过不必要的数据访问。( 这种优化常见于MySQL等关系数据库)。 除了基本查询之外, 针对一些离线分析业务, Mesa也支持Map Reduce框架。 总体看来Mesa支持的SQL能力比较有限, 查询的效率比较依赖于索引或者物化视图定义。 异地复制 全局唯一的无状态committer赋予更新唯一版本号, 并提交到异地高可用(paxo协议实现)的G
您可能关注的文档
- 医学影像学考试资料总结.doc
- 福建省周宁十中2014-2015学年高一语文下学期6月周练试题.doc
- 移动训练操作流程.doc
- 医学影像成像原理题书.doc
- 福建省福安市高级中学2016届高三语文3月月考试题.doc
- 空课讲义(一)学生版.doc
- 福建消防大数据中心的方案.doc
- 医学影像检查技术试题及答案.doc
- 医学影像技术在常见腮腺疾病中的应用.doc
- 医学影像学简答问答.doc
- 计量规程规范 JJF 2326-2025甚高频信标导航测试仪校准规范.pdf
- JJF 1274-2025运动黏度测定器校准规范.pdf
- JJF 2326-2025甚高频信标导航测试仪校准规范.pdf
- 《JJF 1274-2025运动黏度测定器校准规范》.pdf
- 计量规程规范 JJF 1274-2025运动黏度测定器校准规范.pdf
- JJF 2340-2025氰化物水质在线分析仪校准规范.pdf
- 计量规程规范 JJF 2340-2025氰化物水质在线分析仪校准规范.pdf
- 《JJF 2340-2025氰化物水质在线分析仪校准规范》.pdf
- 计量规程规范 JJF 2330-2025城镇燃气相对密度计校准规范.pdf
- JJF 2330-2025城镇燃气相对密度计校准规范.pdf
最近下载
- 人教PEP版四年级英语上册Unit 6《Meet my family》Part A 配套课件.ppt VIP
- 揭开麻城孝感乡移民发源地之谜.doc VIP
- (38)--社区禁毒服务的工作服务中心禁毒社会工作.pdf VIP
- DL_T 724-2021 电力系统用蓄电池直流电源装置运行与维护技术规程.docx VIP
- 学堂在线 大国航母与舰载机(2025秋) 作业答案.docx VIP
- 看看 ws430_原创文档.pdf VIP
- 鄂尔多斯市人才发展集团有限公司人才储备笔试历年参考题库附带答案详解.pdf
- 石家庄轻工业调查报告.doc VIP
- 2025年体育单招语文试题附答案.docx VIP
- 《中越春节风俗差异》课件.ppt VIP
原创力文档


文档评论(0)