- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据机 大数据分析市场行业分布 ? 2012 年大数据分析需求行业分布 – 政府、互联网、电信、金融的大数据市场规模较大,四个行业将 占据一半市场份额。 ? 结论: 各个行业都存在大数据应用的需求,潜在市场空间非常可观。 云展大数据机 大数据采集 大数据存储 大数据处理 大数据可视化 收集网站日志 , 交易数据 , 音频 视频数据 , 即时 信息 …… 可扩展数据采集 框架 数据导入 元数据管理 分布式大数据存 储 确立分析目标 编写分析程序 大数据并行处理 引擎 为分析目标生成 报表 , 趋势图等 图表生成工具 大数据分析应用 大数据分析平台 云展大数据机 — 软件架构 数据收集框架 基于分布式文件 系统的数据存储 元数据管理 E3 大数据并行处理框架 SQL 接口 E3 编程接口 MapReduce 接口 可视化工具 大数据知识库 文本分析工具 结构化数据 分析工具 云展大数据机 — 硬件架构 ? 标准机架式设计 – 每个机架可容纳 40 台节点机 – 节点机通过千兆以太网连接 – 节点机采用标准 PC 服务器 – 可扩展到 20 个机架 – 原型机: awan ( 2 个机架, 76 台节点机) 云展关键技术 —— E 3 引擎 ? E3 将数据处理过程描述为一个线性工作流,工作流中每一个节点称为一个阶 段,每阶段包含若干处理单元,每个处理单元对数据进行部分处理。 ? E3 按照工作流的顺序,并行地调度处理单元在计算节点上运行,自动在处理 单元之间传递中间运算结果,最终完成整个数据处理过程。 pu1 pu1 pu1 pu1 pu2 pu2 pu3 pu4 pu4 pu5 pu5 pu5 云 数 据 存 储 服 务 云 数 据 存 储 服 务 PU – processing unit (处理单元) E 3 与阿帕奇 Hadoop 的性能比较 ? Grep 任务:每个节点 535M ? Select 任务:每个节点 1G Grep 任务 Select 任务 混合式数据分析工具 ? 同时支持非结构化的文本分析和结构化的数据库分析 ? 建立在统一的 E 3 引擎之上,能够进行交互和联合分析 ? 支持对海量数据的快速分析,发现其中隐藏的知识、行为 模式等 ? 提供描述语言,支持用户进行自定义的数据分析 文本分析工具 结构化数据 分析工具 非机构化分析工具 ? 分布式存储和处理模型 – 无需定义表结构 – 数据直接存储与分布式文件系统中 – 自动错误处理和恢复 ? 基本的数据访问接口 – put/get: 随机的文档数据读取 – scan: 批量数据扫描 – tokenize: 将文档组织成单词组以提供给上层分析处理 ? 分析数据接口 – Extract operator [ ? ]: 提供基于正则表达式和字典的匹配操作 – Select operator [ σ ]: 提供基于用户选择条件的过滤操作 – Join operator [ ? ]: 将来自多个数据源的文档 / 文字流进行合并 – Consolidate operator [ Ω ]: 去重操作 ? 提供类似于 SQL 的文本处理分析语言 : EPQL 非结构化处理流程 ? 每一个 EPQL 将对特定集合的文档进行处理 ? 每个文档将通过 4 个操作的处理,然后中间结果传给连接 操作和去重操作 ? 结果将是符合用户要求的文档或统计内容,比如: – 查找所有包含关键词: [Cloud] [Computing] ,在 2012 年产生的网页 – 统计近一个月内,出现包含钓鱼岛的文档与包含日本车销量内容 的文档的关联度 文本分析示例:用户反馈信息分析 ? 在电子商务网站,如京东等,用户购买结束后,会对产品 购买过程及产品本身进行评价,通过分析用户的反馈信息, 可以发现其中的问题 关键问题:发货速度慢, 需要更换物流公司 结构化数据分析 ? 结构化数据分析通过维护并定期更新 data cube 的方式来 提供高效的分析查询结果 ? 根据时间戳来实现同时支持实时事务处理和分析查询 分布式文件系统 DataCube E 3 引擎 元数据 更新 Cube 事务处 理查询 分析查询 实时数据 键值存储系统 数据分片 分布式索引技术 ? 在结构化分析工
您可能关注的文档
- 培训用友成本管理讲解.ppt
- 基于云平台的县乡村一体化基层医疗卫生信息化实践.ppt
- 基因在亲子代间的传递PPT课件16 人教版.ppt[文字可编辑].ppt
- 基因工程载体噬菌体载体.ppt
- 基因控制生物的性状PPT课件15 人教版.ppt[文字可编辑].ppt
- 基因的显性和隐性PPT课件27 人教版.ppt[文字可编辑].ppt
- 填空 广东高考英语语法.doc
- 壮丽多姿的山河课件∣泰山版.ppt
- 复习课程近代西方资本主义政体建立.ppt
- 夏天里的成长课件 人教部编版2.ppt
- 人教版数学九年级上册《 二次函数》说课稿(共19张PPT).ppt
- 人教版八年级上册 12.2.2三角形全等的判定 “边角边”判定三角形全等 (共22张PPT).ppt
- 人教版初中数学2011课标版八年级上册第十二章12.2 三角形全等的判定 课件(共16张PPT).ppt
- 人教版九年级第十单元课题1浓硫酸1 (共18张PPT).ppt
- 人教版初中数学七年级上册 1.4 有理数的乘除法(共22张PPT).ppt
- 人教版八年级物理上册第1章 第2节运动的描述习题课件(共20张PPT).ppt
- 人教版九年级课题2酸和碱之间会发生什么反应(共21张PPT).ppt
- 人教版初中物理2011课标版 九年级 第十八章 电功率第三节 测量小灯泡的电功率(共25张PPT).pptx
- 人教版初中数学2011课标版九年级上册第二十四章24.1圆的有关性质(共17张PPT).ppt
- 人教版初中数学2011课标版九年级上册21.2解一元二次方程(共22张PPT).pptx
原创力文档


文档评论(0)