大数据分析市场行业分布.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据机 大数据分析市场行业分布 2012年大数据分析需求行业分布 政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。 结论:各个行业都存在大数据应用的需求,潜在市场空间非常可观。 云展大数据机 大数据采集 大数据存储 大数据处理 大数据可视化 收集网站日志,交易数据,音频视频数据,即时信息…… 可扩展数据采集框架 数据导入 元数据管理 分布式大数据存储 确立分析目标 编写分析程序 大数据并行处理引擎 为分析目标生成报表,趋势图等 图表生成工具 大数据分析应用 大数据分析平台 云展大数据机—软件架构 数据收集框架 基于分布式文件系统的数据存储 元数据管理 E3大数据并行处理框架 SQL接口 E3编程接口 MapReduce接口 可视化工具 大数据知识库 文本分析工具 结构化数据 分析工具 云展大数据机—硬件架构 标准机架式设计 每个机架可容纳40台节点机 节点机通过千兆以太网连接 节点机采用标准PC服务器 可扩展到20个机架 原型机:awan(2个机架,76台节点机) 云展关键技术——E3引擎 E3将数据处理过程描述为一个线性工作流,工作流中每一个节点称为一个阶段,每阶段包含若干处理单元,每个处理单元对数据进行部分处理。 E3按照工作流的顺序,并行地调度处理单元在计算节点上运行,自动在处理单元之间传递中间运算结果,最终完成整个数据处理过程。 pu1 pu1 pu1 pu1 pu2 pu2 pu3 pu4 pu4 pu5 pu5 pu5 云数据 存储服务 云 数据存储服务 PU – processing unit (处理单元) E3与阿帕奇Hadoop的性能比较 Grep任务:每个节点535M Select任务:每个节点1G Grep任务 Select任务 混合式数据分析工具 同时支持非结构化的文本分析和结构化的数据库分析 建立在统一的E3引擎之上,能够进行交互和联合分析 支持对海量数据的快速分析,发现其中隐藏的知识、行为模式等 提供描述语言,支持用户进行自定义的数据分析 文本分析工具 结构化数据 分析工具 非机构化分析工具 分布式存储和处理模型 无需定义表结构 数据直接存储与分布式文件系统中 自动错误处理和恢复 基本的数据访问接口 put/get: 随机的文档数据读取 scan: 批量数据扫描 tokenize: 将文档组织成单词组以提供给上层分析处理 分析数据接口 Extract operator [?]: 提供基于正则表达式和字典的匹配操作 Select operator [σ]: 提供基于用户选择条件的过滤操作 Join operator [?]: 将来自多个数据源的文档/文字流进行合并 Consolidate operator [Ω]: 去重操作 提供类似于SQL的文本处理分析语言: EPQL 非结构化处理流程 每一个EPQL将对特定集合的文档进行处理 每个文档将通过4个操作的处理,然后中间结果传给连接操作和去重操作 结果将是符合用户要求的文档或统计内容,比如: 查找所有包含关键词:[Cloud] [Computing],在2012年产生的网页 统计近一个月内,出现包含钓鱼岛的文档与包含日本车销量内容的文档的关联度 文本分析示例:用户反馈信息分析 在电子商务网站,如京东等,用户购买结束后,会对产品购买过程及产品本身进行评价,通过分析用户的反馈信息,可以发现其中的问题 关键问题:发货速度慢,需要更换物流公司 结构化数据分析 结构化数据分析通过维护并定期更新data cube的方式来提供高效的分析查询结果 根据时间戳来实现同时支持实时事务处理和分析查询 数据分片 分布式索引技术 在结构化分析工具中,系统建立多维的分布式索引以支持高效的并行查找 分布式索引技术 建立分布式二级索引 支持并发地在多节点上同时查询 可以和本地数据库索引连接 例如:分布式B树索引结构, 可视化工具 将分析结果以报表的形式展现给用户 支持线图、饼图、柱装图、趋势图等常用的图表格式 标签云以及数据关联挖掘 云展大数据机与其他大数据分析平台的比较 云展大数据机 Greenplum HD IBM BigInsights 是否一体机 是 是 否 硬件架构 标准 标准 N.A. 大数据收集 框架式设计 手工 手工 元数据管理 支持 不支持 不支持 大数据存储 HDFS HDFS HDFS 大数据处理引擎 E3 Hadoop Hadoop 大数据处理接口 E3,MapReduce,SQL MapReduce,HiveQL MapReduce,Jaql 大数据可视化 支持 不支持 不支持 如何处理分析结果 Elephant DB,支持检索、外部应用访问接口 需要倒入Greenplum Database数据仓库 文件存储,无

文档评论(0)

586334000 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档