大数据研究现状.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据研究现状.doc

大数据研究现状   摘 要:随着大数据概念的提出,云计算技术也快速发展。时至今日,大数据和云计算已经成为互联网时代的潮流,许多学者对大数据进行研究,提出了许多可行有效的数据分析方法,使人们从巨量数据中挖掘出有价值的数据,提高数据的利用率,这些分析方法已经得到实际运用,并且带来很好的经济效益。   关键词:大数据;云计算;数据分析;数据挖掘   1、引言   近几年,随着互联网、云计算、移动互联网等新技术的迅速发展,人类之间的活动和交往日益复杂,数据呈现快速增长趋势,于是便迎来了大数据时代。   人类的社会活动产生了巨量的数据,这些数据正处在疯狂成长的阶段,引起了商业界、科学界和政府机构的广泛关注。如何处理这些巨量数据和如何在海量数据中挖掘有价值的数据是所需要解决的主要问题。   2、大数据的基本概念   2.1大数据的定义   人们所理解的数据大多数是存储在数据库中,可以用来读取、计算和操作的结构化数据,大数据就是海量的数据。大数据指的其实就是“海量数据+复杂数据类型”及非结构化数据,其核心在于数据的挖掘和应用产生的多方位价值[1]。大数据规模大,数据结构复杂度高,数据关联度高等特点。   2.2大数据的特点   大数据具有以下4个主要特征:   2.2.1巨量(volumes)   传统人们使用的数据都以KB、MB、GB和TB为单位来衡量,在现在数据爆炸的时代,TB都已经无法衡量人们所掌握的数据容量,而是用PB、EB、或ZB作为大数据的计量单位。在互联网时代,数据疯狂增长,有关数据表明,过去3年人类的信息数据总量比以往4万年的数据量还要多。   2.2.2高速(Velocity)   大数据与传统的数据挖掘技术有着本质的区别,当面临各种信息时,如何把握数据的时效性,从各种数据类型中快速获取高价值的信息,是大数据时代对数据处理提出的基本要求。   2.2.3多样(Variety)   互联网时代,大数据不仅体现在量的增长,而且数据类型变得十分复杂。它不仅包括可以存储在数据库中的结构化数据;也包括非结构化数据,如文本、视频、音频和图片等,而且非结构化数据占据很大的比重。统计显示,全世界结构化数据的增长率大约是32%,而非结构化数据增长率则是63%。非结构化数据往往在大数据中具有更高的价值。   2.2.4高值(Value)   对于海量的数据,人们需要从中提取出有价值的数据为己所用,数据挖掘技术广泛应用于商业,对数据价值进行再挖掘。巨量数据中有价值的数据是极小的一部分,大数据的价值密度很低,然而只要合理的利用数据,并对其进行正确、准确的分析,将会带来很高的价值回报。   3、大数据面临的挑战   由于大数据具有数据量大,要求处理速度快,数据种类多,价值密度低等特点,使得大数据技术面临严重的挑战,对于大数据的处理和计算面临的许多问题都依然没有得到本质的解决。   3.1数据传输问题   互联网时代,人们利用网络传输数据,面对海量数据,以现有的网络传输技术,需要花费大量的时间和带宽。大数据时代的网络无法满足人们数据传输的要求,不但花费大量的时间,而且占用了许多宝贵的网络资源。如何快速有效的传输大量数据仍是难以解决的问题。   3.2数据存储问题   大数据发展面临的问题是来自不同地方、标准各异、数据量巨大、结构形式种类多、实时性等多样化要求的数据信息。故此应修改基于块和文件的存储系统的架构设计,以克服存在的问题。虽然使用了云服务技术,但是仍然无法满足数据容积的增长速度,人类活动产生的大量数据将面临着需要大量存储空间的严峻问题。   3.3数据计算问题   大数据时代产生的海量数据不仅包括可以存储在数据库中的结构化数据,而且还包括占大比例的非结构化数据。要从海量数据中挖掘出有价值的信息,需要一些有效的计算方法,从大量非结构化数据中找出有价值的信息更加复杂,如果没有高效的计算方法,不仅需要消耗大量的时间和计算机资源,而且还无法精确的找到有效的信息。   3.4数据分析问题   现在的世界是数据的世界,现在的科学是数据科学。如何利用好各种数据,从海量数据中提取有用的信息,需要数据建模分析技术来解决这些问题。尽管科学家提出了许多行之有效数据分析方法,但是仍然无法达到理想的目标。   3.5数据安全与用户隐私保护问题   大数据下,人们面临的威胁不仅包括个人隐私泄漏,更可怕的是基于大数据对用户状态和行为的预测;受攻击或刻意制造的大数据会导致错误的分析结论;大数据层层传播,误差积累也会导致数据失真。中国计算机学会(CCF)大数据专家委员会关于2014年大数据发展趋势预测的报告指出用户隐私会越来越多地融入各种大数据中,大数据更容易成为网络攻击目标,大数据分析技术更容易被黑客利用,

文档评论(0)

fa159yd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档