yzbigdatasolutiontonetease(中文)-云展大数据处理.ppt

yzbigdatasolutiontonetease(中文)-云展大数据处理.ppt

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
yzbigdatasolutiontonetease(中文)-云展大数据处理

云展大数据机 新加坡国立大学/浙江大学数据库研究组 团队简介 新加坡国立大学 2011年美国新闻(US News)的大学排名中为第28名,亚洲第三名 2011-2012泰晤士报大学排名中为世界第40名,亚洲第三名 2012 QS World University Rankings的计算机系排名,国立大学排第9名 基于新加坡国立大学计算机系数据库组的研究团队 教授博士导师:3人 博士后:3人 博士生:16人 硕士生:10人 研究助理:8人 团队带头人 黄铭钧(Ooi Beng Chin)教授 现任新加坡国立大学计算机学院院长 ACM和IEEE双料院士 2009年SIGMOD贡献奖 2011年新加坡科学家总统奖 2012年IEEE Computer Society Kanai奖 国际知名刊物TKDE的主编 曾多次担任国际顶级会议SIGMOD, VLDB, ICDE的执行委员会主席 共发表国际论文200多篇 团队带头人 陈刚教授 浙江大学计算机学院副院长 近五年来共在研和完成国家863计划项目四项、国防预研项目四项,国家计委产业化前期项目一项 获国家科技进步二等奖一项、国家科技进步三等奖一项、浙江省科技进步一等奖二项、教育部科技进步二等奖一项,年度浙江省科技进步三等奖一项 开发国产数据库神舟Oscar系统 云展大数据机概述 定位:国内大数据分析平台,为应用开发提供支撑 特色: 软硬件一体化设计 对大数据分析应用开发全周期的支持 大数据收集 大数据编目(元数据管理) 大数据并行处理引擎 数据可视化、知识查询 性能卓越 云计算技术 并行处理技术 国内大数据市场形势分析 数据来源:CCW Research(计世资讯 )是ICT产业权威的市场研究和咨询机构 市场规模 2011年开始起步,2012-2016,高速发展 2012年为4.7亿元,每年超过100%的增长速度 大数据分析市场行业分布 2012年大数据分析需求行业分布 政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。 结论:各个行业都存在大数据应用的需求,潜在市场空间非常可观。 云展大数据机 云展大数据机—软件架构 云展大数据机—硬件架构 标准机架式设计 每个机架可容纳40台节点机 节点机通过千兆以太网连接 节点机采用标准PC服务器 可扩展到20个机架 原型机:awan(2个机架,76台节点机) 云展关键技术——E3引擎 E3将数据处理过程描述为一个线性工作流,工作流中每一个节点称为一个阶段,每阶段包含若干处理单元,每个处理单元对数据进行部分处理。 E3按照工作流的顺序,并行地调度处理单元在计算节点上运行,自动在处理单元之间传递中间运算结果,最终完成整个数据处理过程。 E3与阿帕奇Hadoop的性能比较 Grep任务:每个节点535M Select任务:每个节点1G 混合式数据分析工具 同时支持非结构化的文本分析和结构化的数据库分析 建立在统一的E3引擎之上,能够进行交互和联合分析 支持对海量数据的快速分析,发现其中隐藏的知识、行为模式等 提供描述语言,支持用户进行自定义的数据分析 非机构化分析工具 分布式存储和处理模型 无需定义表结构 数据直接存储与分布式文件系统中 自动错误处理和恢复 基本的数据访问接口 put/get: 随机的文档数据读取 scan: 批量数据扫描 tokenize: 将文档组织成单词组以提供给上层分析处理 分析数据接口 Extract operator [?]: 提供基于正则表达式和字典的匹配操作 Select operator [σ]: 提供基于用户选择条件的过滤操作 Join operator [?]: 将来自多个数据源的文档/文字流进行合并 Consolidate operator [Ω]: 去重操作 提供类似于SQL的文本处理分析语言: EPQL 非结构化处理流程 每一个EPQL将对特定集合的文档进行处理 每个文档将通过4个操作的处理,然后中间结果传给连接操作和去重操作 结果将是符合用户要求的文档或统计内容,比如: 查找所有包含关键词:[Cloud] [Computing],在2012年产生的网页 统计近一个月内,出现包含钓鱼岛的文档与包含日本车销量内容的文档的关联度 结构化数据分析 结构化数据分析通过维护并定期更新data cube的方式来提供高效的分析查询结果 根据时间戳来实现同时支持实时事务处理和分析查询 分布式索引技术 在结构化分析工具中,系统建立多维的分布式索引以支持高效的并行查找 分布式索引技术 建立分布式二级索引 支持并发地在多节点上同时查询 可以和本地数据库索引连接 例如:分布式B树索引结构, 可视化工具 将分析结果以报表的形式展现给用户 支持线图、饼图、柱装图、趋势图等常用的图表格式 标

文档评论(0)

maritime5 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档