- 4
- 0
- 约8.1千字
- 约 8页
- 2019-05-23 发布于浙江
- 举报
BigInsights -- 基于 Hadoop 的数据分析平台
简介:?本文针对 IBM 最新开发的数据分析平台进行概要介绍并对其应用进行指导说明。随着信息技术应用范围的不断扩展,对数据进行挖掘分析的需求日益增加,但是信息量的不断增大及其应用构建的复杂性日益却成为了传统数据分析的一个瓶颈。IBM 构建的数据分析平台针对上述问题,基于 Hadoop 技术,对数据查询语言,数据分析软件,数据库,作业调度模块进行了有效整合,实现了对数据的有效、高效处理,保证了高度的扩展性和兼容性。
数据分析背景及其传统数据分析平台的问题起源
在当今信息爆炸的时代,企业需要对越来越多的数据进行访问和处理。除了传统的在线交易处理系统和管理信息系统外,半结构化和无结构化的数据呈现出了更快速的增长趋势,例如企业内部的 email 归档,call center 对话记录,客户反馈记录,企业内部网络应用,合作管理系统以及,企业的外部门户网站点击记录,基于 Feed 的市场信息等等。如何更加有效的低成本的处理这些大量的数据(数据量从几个 Tera 字节到 Peta 字节)从而和商业智能相结合以挖掘出对企业有益的信息并帮助用户作出更准确的决策是一个急需解决的问题。目前传统的数据分析平台(ETI 引擎,数据仓库和集市等技术)主要是针对结构化的数据进行在线数据分析应用,这种数据处理模式面临着对大量数据和半结构化的数据处理能力不足和不能承受服务器扩展的的复杂性的问题,为此,Google 实现了一个能够有效利用大量成本低廉的 PC 机和服务器的 Mapred 编程模型和框架并于 2004 年发表了相应的论文,此框架提供自动容错和恢复功能并且能够保证整个系统的高度可扩展性,而 Hadoop 作为 Mapred 的 Open source 的实现已经被越来越多的企业特别是 Internet 公司采用作为基本的分析和查询的基础架构,比如百度,Facebook, Yahoo !等。
IBM 对于 Hadoop 的研究开始于 2-3 年前,截止到目前,研究成果涉及到作业调度,查询语言等多个方面。在这些研究的基础上,IBM 启动了 BigInsights 项目并于 2011 年 5 月发布了 Basic Edition 和 Enterprise Edition 并且还将集成更多 IBM 的产品与组件(可通过以下链接了解 BigInsights 的产品 /developerworks/cn/data/library/techarticle/dm-1108lisd/#links),其系统结构图如图 1 所示。
图 1. BigInsight 整体框架图
从上面的 BigInsights 产品战略示意图中可以看到,平台的最低层依赖于由多台普通 PC 或者服务器组成的集群 , 也就是说用户并不需要通过不断的购买或者升级目前的大型服务器的性能来实现更大数据量的处理,而只需要利用一些闲置的普通机器对目前的集群进行扩展 (scale-up 方式 )。另外,此平台除了支持 Hadoop 应用程序主要基于的 HDFS 存储系统外,还将对 IBM 最新推出的 GPFS SNC (Shared Nothing Cluster) 平台进行支持以更好的利用其强大的灾难恢复,高可靠性,高扩展性的优势,其实现依赖于 Hadoop 本身提供的抽象 API 接口。为了对这些存储系统的数据能够进行有效地分析,BigInsights 平台集成了 IBM 最新推出的大数据量处理分析系统 BigSheets, 用来方便的抓取转瞬即逝的信息并进行保存分析,除此之外,为了使用户自己能够方便的定制自己的查询功能,BigInsights 还提供了能够直接对存储系统的数据进行读取及其他操作的查询语言 Jaql, 这些也是 Biginsight 发布的重点特性,也是本文进行介绍的重点。在 BigSheets,Jaql 和底层的存储系统之间,BigInsights 使用了任务调度器来调度多个作业的同时运行。此外,从上图中可以看到 ,BigInsights 不但考虑到了单独对数据进行处理的能力,还考虑到了和传统数据库软件、传统数据分析软件集成的能力,另外也提供了对系统进行管理监控等功能。下面的章节将集中在 BigInsights 的应用模块 (Jaql,biggSheets, Jaql 和 DB2 的集成 ) 进行阐述。
BigInsights 平台的查询语言和对传统数据库的支持
1. Jaql--BigInsights 平台提供的查询语言
作为一个优秀的并行计算平台,Hadoop 虽然已经被广泛验证,但是在 Hadoop 上开发 MapReduce 程序需要较长的开发周期,开发人员需要充分理解 MapReduce 计算框架
您可能关注的文档
- 《客车故障轨边图像检测系统(TVDS)探测站设备技术条件》.doc
- 法院公务车辆管理系统的设计与实现.doc
- 火电厂SIS系统方案设计与实施.doc
- 基于MongoDB的闽西客家文化数据存储设计与分析.doc
- 基于参数空间变化的机制设计-中国国有土地转让机制研究.doc
- 基于学习平台在线教学的小学信息技术自主学习模式研究.docx
- 年产12万吨SCM微粉磨生产线安装方案.doc
- 数字化学习课题申报书.doc
- 阳极氧化工艺作业标准.doc
- 油库设计与工艺试卷.doc
- 《GB/T 46962-2026印刷技术 安全印刷过程管理》.pdf
- 中国国家标准 GB/T 46962-2026印刷技术 安全印刷过程管理.pdf
- GB/T 46962-2026印刷技术 安全印刷过程管理.pdf
- 中国国家标准 GB/T 32580.5-2026轨道交通 地面装置 高压交流开关设备及互感器 第5部分:27.5 kV和2×27.5 kV金属封闭开关设备和控制设备.pdf
- 《GB/T 32580.5-2026轨道交通 地面装置 高压交流开关设备及互感器 第5部分:27.5 kV和2×27.5 kV金属封闭开关设备和控制设备》.pdf
- GB/T 33248-2026印刷技术 胶印橡皮布.pdf
- GB/T 18282.6-2026医疗产品灭菌 化学指示物 第6部分:用于小型蒸汽灭菌器性能测试的二类指示物和过程挑战装置.pdf
- 中国国家标准 GB/T 18282.6-2026医疗产品灭菌 化学指示物 第6部分:用于小型蒸汽灭菌器性能测试的二类指示物和过程挑战装置.pdf
- 中国国家标准 GB/T 31308.1-2026行政、商业和行业中的数据元、过程和文档 长效签名 第1部分:CMS高级电子签名(CAdES)规范.pdf
- GB/T 31308.1-2026行政、商业和行业中的数据元、过程和文档 长效签名 第1部分:CMS高级电子签名(CAdES)规范.pdf
最近下载
- (人教版2026新教材)数学一年级下册全册教材分析 课件.pptx
- 注射用硫酸艾沙康唑(康新博)中文说明书.pdf
- 初中数学八上-第十一章 实数和二次根式(压轴专练)(六大题型50道)(原卷版).pdf VIP
- 2021年NICE指南医患共同决策.pdf VIP
- 深度解析(2026)《GBT 10592-2023高低温试验箱技术条件》.pptx VIP
- 23.《“蛟龙”探海》课件 (共24张ppt)统编版语文七年级下册.pptx VIP
- 爱登堡电梯EDVF60/70调试、使用、维护说明(V1.0).pdf
- 舒适状况量表(GCQ).pdf VIP
- (正式版)D-L∕T 872-2016 小电流接地系统单相接地故障选线装置技术条件.docx VIP
- ECMO在ICU临床应用现状及展望护理课件.pptx VIP
原创力文档

文档评论(0)