2013中国大数据技术大会-新计算时代.pptxVIP

2013中国大数据技术大会-新计算时代.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2013中国大数据技术大会-新计算时代

新计算时代——应用驱动、软件定义的数据中心计算典型应用1: 面向用户的服务PHPPythonLogicCacheMemcachedMySQL NoSQLDataWWeebbPagesQueryServingIndex BuildingCrawling倒排表网页库Data Mining典型应用2: 搜索引擎应用特点1:Workload转向离线数据处理在线离线UGC事务数据处理数据总量 数据处理量 网页更新量 请求 日志总量日志更新量~1EB? ~100PB/天? ~万亿? ~百亿/天? ~百亿/天? ~100PB? ~1PB/天百度的数据规模应用特点2: 超大规模算法A算法B算法B通过反馈来验证算法优劣离线在线离线分析与在线实验相结合应用特点3:通过快速迭代进行创新Online Learning5%机器学习 平台5%A/B testFeature Training策略数据网页网页库Data Mining倒排表搜索引擎的迭代A/B测试,持续优化数据智能快速开发部署运维测试想法原型系统产品应用引擎 云测试开发框架应用引擎验证数据分析互联网产品的迭代功能大规模存储 大规模计算 虚拟机App Engine性质Scalability大家都做了什么?数据访问层TableFileObject分布式数据结构块存储内存、Flash、硬盘? 统一存储体系? 平衡大容量、高并发、低延迟? 不同访问模式通过组合满足? 统一访问与传输混合式存储Model ComplexityHPC平台PubSub复杂事件处理向量 计算引擎图 词典流式计算Stream With WindowQuery Structure+ state machine+ read-only structMap/Reduc e实时 处理引擎TMTime SensitivityBatchIncrementalReal-time混合式计算问题 1快速交付 vs. 需求多样按需预算 ? 定期扩容 Over-provisioning 标准化问题 2迭代速度 与在线实验能力资源调度 (容错、扩容) 应用部署 (软件环境、系统拓扑)发布管理 (多版本、流量分发、过程)运营(多版本沙盒环境、流量分发、数据记录)功能(存储、运行平台、接入)资源(机架位、网络、机器)Elasticity = Scalability + End-to-End DeliveryRethink ElasticityDatacenter ArchitectureDisaggregation + RecompositionDatacenter OS调度、部署、发布我们需要什么?可重组部件高速全互联? 共享总线物理集成共享电源风扇DisaggregationBNSicafe拓扑发布管理层配置服务Bigdata监 控 体 系发布描述可用实例资源管理层线上测试数据服务可用机器机器描述image线上监控包管 理机器管理层预算管理Datacenter OS问题 3 : “光大”是不够的大规模数据管理和处理能力Volume多模态数据管理能力 关联分析能力Variety实时数据处理能力 关联分析能力Velocity大规模数据处理能力 数据智能挖掘算法Value应用知识 图谱NLP…多媒体广告 推荐管理与处理数据仓库机器学习系统架构软件基础架构(数据中心操作系统、实时存储与计算)基础设施(数据中心、网络、服务器)大数据的技术栈人计算大规模人工 辅助标注系统Apps机器学习算法自动评估向量引擎推荐系统分布式存储与计算Web Contents智能交通 商业智能PubSub决策辅助Logs流式处理大数据系统图查询kNN查询机器学习PubSub实时检索OLAP平台平台算法平台引擎平台引擎向量计算引擎触发式处理引擎流式数据处理引擎分布式数据结构超大规模数据仓库实时存储与计算大数据需要新的硬件体系结构高性能、大内存、低延迟ScalablePower-efficient以数据的移动和处理为中心新的存储、通信、计算架构异构化 (ARM / GPU / FPGA / ASIC)我们需要新时代的CRAY需与其他服务共享基础设施在线服务数据仓库机器学习模块化、可重组的体系结构数据中心级别 平台化,7*24 CommoditizedSoftware-defined DatacenterRack-scale 尽可能共享 提高内聚性可动态组装 (Recomposable) 配件池,标准化交付 满足应用层的差异性需求 (硬件虚拟化方案)以软件接口的方式隐藏异构性CPU/GPU/FPGA/AcceleratorMem/SSD/SATA整个数据中心是一台计算机应用驱动,软件定义软硬件协同创新软硬件一体的集成简化可控制性 智能 剥离控制逻辑尽可能在更大的范围内共享 (部件、

文档评论(0)

有一二三 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档