大数据研究综述.docxVIP

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

?

?

大数据研究综述

?

?

姚哲

摘要:随着信息技术的高速发展,大数据的广泛应用影响着人类生活的方方面面。从大数据的基本概念入手,探讨了大数据的“四V”特征:Volume(大容量)、Variety(多样化)、Velocity(高速)、Value(价值密度低),阐述了大数据在教育、医疗、零售业方面的应用,并且归纳梳理了国内外的研究现状。

关键词:大数据;应用;教育;医疗;零售业

:G203文献标志码:A:1671-2153(2017)05-0036-05

一、大数据定义

尽管“大数据”一词已经耳熟能详,但是在业内还没有统一的定义。“大数据”研究机构Gartner将“大数据”定义为需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。ViktorMayer-Sch?觟nberger和KennethCukier在《大数据时代》(BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink)一书中写道:大数据不用随机分析法(抽样调查)这样的捷径,对所有数据进行分析处理。麻省理工学院的CesarA.Hidalgo博士认为大数据是指规模大、内容多、富有深度的数据集[1]。维基百科则将“大数据”定义为所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。

关于数据密集型科学,著名数据库专家、图灵奖的获得者JimGary博士在《第四范式:数据密集型科学发现》(TheFourthParadigm:Data-IntensiveScientificDiscovery)一书中表示鉴于数据密集型科学研究独特的技术支持需求和鲜明特点,有必要将数据密集型科学从计算科学中单独区分开来,这种新的科学研究方式称之为第四范式(TheFourthParadigm),即“数据探索”(DataExpiration)[2]。四种科学范式的含义如表1所示。

二、大数据的特征

起初,IBM公司提出大数据具有5“V”的特征,即Volume(大容量)、Variety(多样化)、Velocity(高速)、Value(价值密度低)、Veracity(真实性)[3]。但是最近幾年,互联网数据的不可靠性日益突出,比如淘宝店铺中某产品的一致好评基本上是刷单的结果,快递公司建设虚假海外物流查询网站欺骗海购消费者,Veracity(真实性)已经不再是大数据的特征之一。

Volume是指庞大的数据量,同时也是大数据特征中最重要的一项,它主要表現在处理的数量级已经从TB级别跨越到PB、EB,甚至ZB级别。数据量体现在TB级以上的数据在进行数据访问、收集、处理、整合、转换、管理、存储等方面时所体现的数据规模之大,维度和数量之多。

Variety可以理解为数据的种类繁多,例如社交网络上的视频、音频、图片都是数据的不同形式。随着互联网的高速发展,数据类型从传统的以结构化为主的状态慢慢地转变为结构化、半结构化、非结构化并存的状态。传统的非计算机领域,比如心理学、行为研究学、历史学、考古学,通过运用大数据技术能生成特别丰富的数据集。

Velocity是指数据整合处理的过程中具有高速运转的特征,从而满足用户实时性的需求。如今,信息传播的方式正在发生天翻地覆的变化,用户对于数据智能化和实时性的要求也日益提高,例如直播间的主播与留言的粉丝进行互动,使用打车软件快速了解附近是否有出租车,在旅行途中将心情即时分享到微信朋友圈,通过手机App获取最新的股市动态。

Value意味着数据的价值密度之低。数据的价值与Volume(大容量)和Variety(多样性)息息相关。一般来说,数据的价值主要取决于事件发生的规律和概率,因此通过收集尽可能多的数据并且进行长时间的存储能够提高数据的价值。但是,存储的数据量越大,真正的有价值数据却越少,因此运用大数据技术提取有价值的信息变得尤为重要。

三、大数据的应用

目前,教育、医疗、零售、电信、政府办公等已经成为了大数据发展应用的重点领域,“大数据+”一词也应运而生。大数据技术的应用具有很大的前景,也必将是未来各行各业发展的主要趋势。随着理论研究的完善、技术的发展、环境的成熟,大数据技术必将开创一个产业革新的全新时代。

(一)教育

尽管大数据技术在互联网等行业的应用中取得了突出的成绩,但在教育领域仍然处于初步探索阶段。随着高等教育的普及和信息技术的不断发展,各个高校都建立了自己的教务管理信息系统,这些系统涵盖了学生网上选课、成绩查询、证书查询、教师信息汇总等功能,大大提高了教学以及管理的水平,同时也积累了海量的教学数据。当前存在的问题是海量

文档评论(0)

135****1100 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档