- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1
PAGE 1
大数据需要新的分析技术和工具
究竟是什么因素在推动数据出现这样的大幅增长?有三个因素:基于互联网的活动增加,各式各样的移动设备遍地开花,以及企业快速采用基于传感器的信息——可能涵盖智能仪表到无线射频(RFID)的各种系统。不过,正如现在越来越难驾驭越来越浩大的原始信息,需要实时业务分析工具的呼声也越来越高 大家在争论大数据时,用艾字节(1018字节)或泽字节(1021字节)表示大数据就跟用拍字节(1015字节)表示大数据一样频繁。这是浩大数字。很少用太字节(1012字节)表示大数据。 究竟是什么因素在推动数据出现这样的大幅增长?有三个因素:基于互联网的活动增加,各式各样的移动设备遍地开花,以及企业快速采用基于传感器的信息——可能涵盖智能仪表到无线射频(RFID)的各种系统。不过,正如现在越来越难驾驭越来越浩大的原始信息,需要实时业务分析工具的呼声也越来越高。 那么,你如何定义大数据?如何储存大数据?如何经济而高效地管理和分析大数据? 这些问题同样引起了业界大牌厂商和新兴公司的留意,由此带来了新的创新、新的工具和新的开源项目:从列式数据库、Hadoop和MapReduce到很多的NoSQL数据库,这些都是出名的例子。 但作为一个类别,“大数据”是不是实际上过于宽泛?首先,“大数据”对不同的企业来说可能有着不同的含义。对一家公司来说,大数据是10太字节,而对另一家公司来说,大数据可能是100拍字节。其次,不是全部数据都是天生一样的。所以除了数据大小外,明白自己在处理哪一种数据同样很重要,以便可以运用某一项合适的技术(或某几项合适的技术)来应对分析挑战。 就拿电信行业来说吧。电信公司需要能够依据自己收集的呼叫具体记录(CDR)来进行网络分析。另一方面,同样这些公司可能期望进行情感分析,以便了解客户对本公司有怎样的看法。 这两种状况需要采用全然不同的方法:CDR实际上由结构化数据组成,因而很适合使用像列式数据库这些擅长分析的关系数据库。反过来,来自社交媒体的数据是非结构化数据,为了从数据中获取珍贵信息,就需要使用像Hadoop和MapReduce这些新方法。 结构化数据和非结构化数据之间存在重大的区分。典型的结构化数据包括各种各样的日志(互联网日志和网络日志等)、CDR、传感器输出的数据、股市交易数据和在线游玩数据等。这些数据(有时称为机器生成的数据或交互式数据)是类似事务数据的结构化数据,因而可以用同样的方法来处理——前提是数据量很浩大、数据增长的速度很快。 所以,为了侧重应对某个数据挑战、概述一些详细又实用的解决方案,下面列出了用于分析机器生产的数据的三个最佳实践: 一、不仅仅着眼于硬件——面对我们所谈论的这种数据增长,连续添加更多的服务器和更多的磁盘存储子系统根本无以为继。到了某个阶段,以硬件为中心的传统方法会导致基础架构的占地面积很浩大,以至于硬件扩展、部署、供电和维护起来需要极其昂扬的成本。 当然,你可以把这一切硬件都放在云环境,但这只是权宜之计,总归不是长久之计。说得更现实点,你需要关注更有效的替代方案。使用列式数据库方法就是这样一种创新,这项技术在近几年备受关注。 顾名思义,这类数据库是逐列储存数据,而不是逐行储存数据。由于大多数分析查询只涉及表中的一小部分列,所以列式数据库为了回复查询所要检索的数据比行式数据库少得多,行式数据库必需检索每一行的全部列。因而,Infobright、Vertica(惠普)、赛贝思(SAP)和ParAccel等厂商的列式数据库眼下在数据仓库和分析环境中变得越来越常见。 此外,列式数据库供应了数据压缩功能。这种数据库不但削减了输入/输出,还供应了数据加密,因而具有几个优点,包括查询响应速度更快,所需的存储硬件比较少,后者意味着可以降低成本。市面上有些技术的数据压缩比可以达到3:1或4:1,直至达到10:1、20:1甚至30:1,详细取决于待压缩数据的类型。 二、不要制约业务用户能做的工作——真正的调查性分析需要支持复杂动态恳求以及快速即时分析技术的数据库。 传统数据库需要数据库管理员创建和维护索引、划分数据或者创建多维数据集或预估,才能获得很快的查询速度——这一切立足于明白用户想要运行什么查询和报表。针对事先调整特定查询的这种需求恰好有悖于调查性分析具有的性质,调查性本身不是事先定义的。 的确,连对数据进行划分或分片的方式也制约着查询性能。比如说,假如按部门或地区来储存数据,那么这很适合依据这个基础的查询,但是不利于你可能想要运行的其他各种查询获得良好性能。所以,在其他方面同样的状况下
您可能关注的文档
最近下载
- 通信系统设备安装记录.xls VIP
- 中央安全生产考核巡查与明查暗访重点清单及案例解析.pptx VIP
- 深圳市《房屋市政工程生产安全重大事故隐患检查手册(2024版)》.pptx VIP
- 2025驾校科目一模拟考试题.docx VIP
- 食品经营许可证全套规章制度(完整).pdf VIP
- 最新2025驾校科目一模拟考试题.docx VIP
- 2025花城版音乐三年级上册《工农兵联合起来》课堂教学设计.docx
- 汽车钣金喷涂技术 原子灰的施涂及安全防护-教案.pdf VIP
- 贵州2023年12月高中化学学业水平合格考试卷真题(含答案详解) .pdf VIP
- 电商直播行业政策法规解读与合规运营指南2025.docx VIP
原创力文档


文档评论(0)