- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《大数据导论》;所谓大数据,狭义上可以定义为:用现有的一般技术难以管理的大量数据的集合。
对大量数据进行分析,并从中获得有用观点,这种做法在一部分研究机构和大企业中,过去就已经存在了。现在的大数据和过去相比,主要有三点区别:
第一,随着社交媒体和传感器网络等的发展,在我们身边正产生出大量且多样的数据;
第二,随着硬件和软件技术的发展,数据的存储、处理成本大幅下降;
第三,随着云计算兴起,大数据的存储、处理环境已经没有必要自行搭建。;所谓“用现有的一般技术难以管理”,例如是指用目前在企业数据库占据主流地位的关系型数据库无法进行管理的、具有复杂结构的数据;或者也可以说,是指由于数据量的增大,导致对数据的查询(Query)响应时间超出允许范围的庞大数据。
研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。;麦肯锡说:“大数据指的是所涉及的数据集规模已经超过了传统数据库软件获取、存储、营理和分析的能力。这是一个被故意设计成主观性的定义,并且是一个关于多大的数据集才能被认为是大数据的可变定义,即并不定义大于一个特定数字的TB才叫大数据。因为随着技术的不断发展,符合大数据标准的数据集容量也会增长;并且定义随不同的行业也有变化,这依赖于在一个特定行业通常使用何种软件和数据集有多大。因此,大数据在今天不同行业中的范围可以从几十TB到几PB。”;随着“大数据”的出现,数据仓库、数据安全、数据分析、数据挖掘等围绕大数据商业价值的利用正逐渐成为行业人士争相追捧的利润焦点,在全球引领了又一轮数据技术革新的浪潮。;从字面来看,“大数据”这个词可能会让人觉得只是容量非常大的数据集合而已。但容量只不过是大数据特征的一个方面,如果只拘泥于数据量,就无法深入理解当前围绕大数据所进行的讨论。因为“用现有的一般技术难以管理”这样的状况,并不仅仅是由于数据量增大这一个因素所造成的。
IBM说:“可以用3个特征相结合来定义大数据:数??(Volume,或称容量)、种类(Variety,或称多样性)和速度(Velocity),或者就是简单的3V,即庞大容量、极快速度和种类丰富的数据” 。;
;(1)Volume(数量)
最初考虑到数据的容量,是指被大数据解决方案所处理的数据量大,并且在持续增长。数据容量大能够影响数据的独立存储和处理需求,同时还能对数据准备、数据恢复、数据管理的操作产生影响。如今,存储的数据数量正在急剧增长中,我们存储所有事物,包括:环境数据、财务数据、医疗数据、监控数据等。有关数据量的对话已从TB级别转向PB级别,并且不可避免地会转向ZB级别。可是,随着可供企业使用的数据量不断增长,可处理、理解和分析的数据的比例却不断下降。;典型的生成大量数据的数据源包括:
(1)在线交易,例如官方在线销售点和网银。
(2)科研实验,例如大型强子对撞机和阿塔卡玛大型毫米及次毫米波阵列望远镜。
(3)传感器,例如GPS传感器,RFID标签,智能仪表或者信息技术。
(4)社交媒体、脸书、推特、微信、QQ等。;(2)Variety(种类、多样性)
数据多样性指的是大数据解决方案需要支持多种不同格式、不同类型的数据。数据多样性给企业带来的挑战包括数据聚合、数据交换、数据处理和数据存储等。
随着传感器、智能设备以及社交协作技术的激增,企业中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括单击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。;种类表示所有的数据类型。其中,爆发式增长的一些数据,如互联网上的文本数据、位置信息、传感器数据、视频等,用企业中主流的关系型数据库是很难存储的,它们都属于非结构化数据。
当然,在这些数据中,有一些是过去就一直存在并保存下来的。和过去不同的是,除了存储,还需要对这些大数据进行分析,并从中获得有用的信息。例如监控摄像机中的视频数据。近年来,超市、便利店等零售企业几乎都配备了监控摄像机,最初目的是为了防范盗窃,但现在也出现了使用监控摄像机的视频数据来分析顾客购买行为的案例。;3. Velocity(速度,速率)
数据产生和更新的频率,也是衡量大数据的一个重要特征。在大数据环境中,数据产生得很快,在极短的时间内就能聚集起大量的数据集。从企业的角度来说,数据的速率代表数据从进入企业边缘到能够马上进行处理的时间。处理快速的数据输入流,需要企业设计出弹性的数据处理方案,同时也需要强大的数据存储能力。有效处理大数据需要在数据变化的过程中对它的数量和种类执行分析,而不只是在它静止后执行分析。
根据数据源的不同,速率不可能一直很快。; IBM在3V的基础上又归纳总结
您可能关注的文档
最近下载
- 07-维护支柱应知应会.doc VIP
- 考试点专业课:中国矿业大学(徐州)财务管理习题.pdf VIP
- 中国矿业大学《财务管理》2020-2021学年期末试卷.pdf VIP
- 中国矿业大学《财务管理》2021-2022学年第一学期期末试卷.pdf VIP
- 中国矿业大学《国际会计学(英语)》2021-2022学年第一学期期末试卷.doc VIP
- 中国矿业大学《财务管理》2025 - 2026学年第一学期期末试卷.docx VIP
- 高二《直线和圆的方程》易错培优竞赛试题-2024-2025学年高二数学竞赛能力培优练(全国通用)解析版.pdf VIP
- 高二《直线和圆的方程》易错培优竞赛试题-2024-2025学年高二数学竞赛能力培优练(全国通用)原卷版.pdf VIP
- 第六章:维护支柱.pdf VIP
- 缺血性卒中患者椎动脉颅内段钙化:多因素关联与临床洞察.docx
文档评论(0)