大数据应用工具调研.docx

下载文档 降价啦

9
0
约1.09万字
约 23页
2017-07-13 发布于重庆
举报
版权申诉
保障服务

大数据应用工具调研.docx

1、本文档共23页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据应用工具调研

海量数据处理调研报告何家欢：1401210569曾伊蕾：1401210506李浩然：14012109572015年3月21日第一部分：大数据技术概述1.1大数据的时代背景不管你是否愿意，我们都置身于一个“数据化”的时代：每一次聊天的记录，每一笔付过的款项，每一首听过的音乐，只要你通过互联网就已经与大数据 “亲密接触”，但大多数人并不清楚大数据和日常生活之间究竟产生了哪些关联；两会期间，通过央视新闻联播的《两会大数据》板块，我们知道亚洲是全球最关注中国两会的区域，环保话题是最受大众关注的焦点之一……现实生活中，你或许还没在意，但大数据已经影响着你每天的生活。1.2 大数据的内涵1.2.1Wikipedia定义大数据（Big data），或称巨量数据、海量数据、大资料，指的是所涉及的数据量规模巨大到无法通过人工，在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。1.2.2大数据的由来2007年1月11日，微软研究员Jim?Gray在加州发表演说，指出数据密集型（Data-Intensive）科学发现是第四种科学范式，建议美国NSF支持数字图书馆既存书籍、杂志，又存数据。2009年和2010年，在研究数字图书馆十年之际，先后在会议和论文中提出了数据海（Data-Ocean）的概念，特指大容量、非结构、可联通、可跨媒体、可深加工的数据处理类型。2011年5月，EMC（EMC公司是全球信息存储及管理产品、服务和解决方案方面的领先公司）与IDC（IDC国际数据公司，是全球著名的市场咨询和顾问机构）在合作研究“数字宇宙”5年之后，提出了“大数据”的概念，随后，IBM、麦肯锡等众多国外机构发布相关数据，积极跟进大数据概念。1.2.3大数据的四个特征（4V）：--国际数据公司（IDC）图11大数据的四个特征海量的数据规模（Volume）：百度资料表明，其新首页导航每天需要提供的数据超过1.5PB（1PB=1024TB），这些数据如果打印出来将超过5千亿张A4纸。有资料证实，到目前为止，人类生产的所有印刷材料的数据量仅为200PB。快速流转和动态的数据体系（Velocity）：数据处理遵循“1秒定律”，可从各种类型的数据中快速获得高价值的信息。多样的数据类型（Variety）：现在的数据类型不仅是文本形式，更多的是图片、视频、音频、地理位置信息等多类型的数据，个性化数据占绝对多数。?巨大的数据价值（Value）：以视频为例，一小时的视频，在不间断的监控过程中，可能有用的数据仅仅只有一两秒。1.3大数据技术的外延图12大数据世界大数据的外延涉及面非常广泛，大致总结了下以下4个方面：采集：大数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。导入/预处理：虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。统计/分析：统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。挖掘：与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主