PB级大数据存储技术与分析技术解析.docx

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PB级大数据存储技术与分析技术解析 2013年12月2日 目录 TOC \o 1-3 \h \z \u HYPERLINK \l _Toc373767696 一、 PB级大数据存储技术解析 PAGEREF _Toc373767696 \h 2 HYPERLINK \l _Toc373767697 二、 大数据分析系统应规避的问题 PAGEREF _Toc373767697 \h 5 HYPERLINK \l _Toc373767698 三、 剖析Hadoop和大数据的七误解 PAGEREF _Toc373767698 \h 8 HYPERLINK \l _Toc373767699 四、 6个优秀的开源文件系统助力大数据分析 PAGEREF _Toc373767699 \h 13 HYPERLINK \l _Toc373767700 五、 大数据与关系型数据库是否水火不容?NO…… PAGEREF _Toc373767700 \h 17 HYPERLINK \l _Toc373767701 六、 大数据探讨:如何整理1700亿条Twitter发布信息? PAGEREF _Toc373767701 \h 21 HYPERLINK \l _Toc373767702 七、 畅谈阿里巴巴的大数据梦 PAGEREF _Toc373767702 \h 26 HYPERLINK \l _Toc373767703 八、 Twitter利用Storm系统处理实时大数据 PAGEREF _Toc373767703 \h 35 PB级大数据存储技术解析 对于存储管理人员来说,大数据应该分为大数据存储和大数据分析,这两者的关系是——大数据存储是用于大数据分析的。然而,到目前为止这是两种截然不同的计算机技术领域。本文就重点解析一下PB级大数据存储技术,希望对您有所帮助。 越来越多的存储产品都在融入大数据的概念和功能,并使之成为产品的一大卖点。但对于从事存储管理的专业人员来说,对“大数据”在具体应用场景中的特点和区别有所了解。 大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。 在快速变化的技术趋势中有两个特点需要存储管理人员重视起来。 第一,大数据分析流程和传统的数据仓库的方式完全不同,其已经变成了业务部门级别和数据中心级别的关键应用。这也是存储管理员的切入点。随着基础平台(分布式计算或其它架构)变得业务关键化,用户群较以往更加地依赖这一平台,这也使得其成为企业安全性、数据保护和数据管理策略的关键课题。 第二,通常用于数据分析平台的分布式计算平台内的存储不是你以往面对的网络附加存储(NAS)和存储区域网络(SAN)——其通常是内置的直连存储(NAS)以及组成集群的分布式计算节点。这使得管理大数据变得更为复杂,因为你无法像以前那样对这些数据部署安全、保护和保存流程。然而,执行这些流程策略的必要性被集成在管理分布式计算集群之中,并且改变了计算和存储层交互的方式。 大数据分析和传统的数据仓库的不同 大数据分析中包含了各种快速成长中的技术。因此,简单用某一种技术尝试对其定义,比如分布式计算,会比较困难。不过,这些定义大数据分析的通用性技术可以用如下特征阐述: 对于传统数据仓库处理流程效率和扩展性方面限制的感知。将数据,不论是结构化还是非结构化数据从多个数据源汇聚的能力。以及认识到数据的及时性是扩展非结构化数据源的关键,其中包括移动设备,RFID,网络和不断增长的自动化感知技术。 传统的数据仓库系统通常从现有的关系型数据库中抓取数据。然而,据估计超过80%的企业数据是非结构化的,即无法关系型数据库管理系统(RDBMS),比如DB2和Oracle完成的数据。一般而言,处于此次讨论的目的,非结构化数据可以看成所有无法简单转化到结构化关系型数据库中的所有数据。而企业现在希望从这些非结构化数据类型中抽取有价值的信息,包括: 邮件和其它形式的电子通讯记录 网站上的资料,包括点击量和社交媒体相关的内容 数字视频和音频 设备产生的数据(RFID,GPS,传感器产生的数据,日志文件等)以及物联网 在大数据分析的情况下,查看远多于RDBMS的数据类型十分必要——这代表了各种重要的新信息源。并且随着每年非结构化数据存储总量较结构化数据增长率高出10到50倍,从业务角度看这些数据也变得更为重要。 更重要的数据需要更专业的人员进行分析。但传统的数据仓库技术对海量非结构化数据的处理根本无法满足大数据的需求。所以,存储管理人员也应该更快的跟随技术潮流,更新自己的技术和知识结构,提高自己对大数据的管理和分析能力。 大数据分析系统应规避的问题 随着互联网技术的不断发展,数据本身是资产,这一点

文档评论(0)

bodkd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档