- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据在科技教育与信息领域的应用
大数据在科技、教育与信息领域的应用
侯冬梅1,谷 雨2,谷新胜1
(1. 北京青年政治学院 计算机系,北京 100102;
2.加州大学洛杉矶分校 教育信息学院,加利福尼亚 90095)
摘 要:随着当前社会数字网络信息化进程的加快,大数据已成为学术研究、科学实验、市场商务、医疗机构和人类日常生活学习的重要组成部分。文章针对大数据对科技、教育研究、计算机软件发展的推动作用,阐述大数据的主要特征、发展历程和应用领域,指出中国与其他国家在大数据方面的应用特点以及对科技创新和国际竞争力的深远影响。
关键词:大数据;4V;数据量;存储量;数据分析; 超级计算机; 社交数据
1 背 景
在信息技术领域中,大数据指的是一系列复杂而巨大的数据库,由于其复杂性,人们已无法用传统的手工数据库管理工具或者数据处理应用程序收集和处理数据。大数据对传统数据库管理工具和处理应用程序提出的挑战主要包括收集和策展、存储与共享信息、数据分析和可视化。目前,应用大数据集的趋势是往越来越实用的方向发展[1]。很多单一的大数据集中相关数据推导出的额外信息与单独的小数据集具有相同的数据总量,但可以帮助研究人员发现表面并不相关的事务和人类的相关性。例如,IBM给维基百科创建一个可视化的编辑系统,这个系统在容量、文本和图像方面都充分体现了大数据的特点,是一个大数据的典型例子[2]。
截至2012年底,只有艾字节(Exabytes)数据可在一定时间内被有效处理。在气象、基因学、神经学、复杂的物理模拟以及生物和环境研究领域,科学家经常受到大数据量的限制。数据集尺寸不断增大,主要是因为收集数据的信息感应移动设备无处不在,从天线的感觉技术(遥感)、软件日志、摄像头、麦克风到无线射频识别阅读器和无线传感器网络[3]。世界人均存储信息的能力自20世纪80年代以来,每3年增加一倍。截至2012年底,每天世界各地产生的数据大约是一千多万PB。一枚无线射频识别阅读器与一粒大米的尺寸对比如图1所示,它内部的电磁场会在外部识别器的感应下将重要信息输入系统。很多商店都将此种设备安装在商品之内,只有在收银台付款之后,商家才会给商品“消磁”,以防止物品被盗。
通常情况下,使用关系型数据库、桌面统计和可视化软件很难处理大数据。处理大数据需要大规模并行运行的软件在成百上千台服务器上同时运行。大数据的变化不仅仅取决于管理数据结构的设置和容量,还取决于在其领域中处理和分析数据的应用程序的容量。对于一些组织和企业来说,第一次面对数百上千兆字节的数据,可能会使这个组织开始重新审视其数据管理功能需要。对于其他组织和机构而言,可能需要计算数十或数百TB的数据,才会将数据的大小作为重点考虑的因素[4]。
2 大数据的特征及发展历程
大数据主要具有以下特点:一是数据体量巨大(Volume);二是数据种类繁多 (Variety);三是实时性强,处理速度快(Velocity);四是通过分析和提取的大数据有很高的商业价值 (Value)。以上是大数据的4V特性。大数据的4V特性如图2所示[1]。
(1)体量巨大,如一个监控摄像头每日拍下的数据可达到6PB (Petabytes)。
(2)种类繁多,产生的数据量大,但可供使用的、有价值的数据量相比较小。例如,某乳品厂在奶牛身上佩戴健康状况传感器,每天通过互联网传输的数据量巨大,但只有200MB的数据可供乳品厂的研究人员使用,以鉴别奶牛的健康状况。
(3)处理速度快, 应用程序接口每秒往谷歌和其他社交软件发送信息超过150 463次。
(4)商业利用价值,如刚收集到的数据体量很大、很繁琐,没有商业利用价值,但可以在分析后将其变成有商业利用价值的数据。
大数据通常包括能够在较合理的时间之内,大小超过常用的软件工具能够采集、保存、管理和处理的数据集。针对大数据不断变化的特点,科学家引进大数据平台处理日益剧增的数据量。一个叫做MIKE 2.0的开放信息管理系统,定义了大数据的一些主要特征,如有用的排列、复杂性和删除单个记录难度[5]。
在2001年的研究报告和相关讲座中,META集团(现为Gartner公司)分析师道格·尼首先提出了数据增长的“3V模型”,即大容量、高速率、高变化率。Gartner公司和业内的许多同仁至今仍然用“3V模型”描述大数据的主要特征。在2012年,Gartner公司重新定义了大数据的概念:“大数据是高容量、高流速和多种形式的需要新的数据处理模式的大量数据集,对于这些数据的处理和分析,可以有效地促进企业决策、新成果发现以及流程优化等信息资产”[3]。最近,大数据学术界又提出一个最新的“4V”模型,对于第4个“V”的解释,各专家众说纷纭,具体选择哪种解释需要取决于研究的对象。总体来讲,这些“V”主要是针对 “大”而言,大数据将成为未来生活、学习和双物运营的主要标
文档评论(0)