大数据概念技术发展和应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据概念技术发展和应用

大数据概念技术发展和应用   摘 要:随着物联网、云计算、移动互联网的迅猛发展,大数据(Big Data)吸引了越来越多的关注,正成为信息社会的重要财富,同时也给数据的处理与管理带来了巨大挑战。本文首先从大数据概念入手,阐述了大数据的来源、处理技术、大数据获取、大数据安全与隐私等,预测大数据应用发展趋势。旨在为了解大数据当前发展状况,关键技术以及科学地进行大数据分析与处理提供参考。   关键词:大数据 云计算 大数据技术 大数据处理   最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,该公司称:数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。定义是:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。   一、大数据定义   一般而言,大家比较认可关于大数据从早期的4V说法到现在的5V说法。大数据的5个V,业界将其归纳为Volume,Velocity,Variety,Veracity,Value.实际上也就是大数据包含的5个特征,包含5个层面意义:第一,数据体量(Volume)巨大。指收集和分析的数据量非常大,从TB级别,跃升到PB级别,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量。第二,处理速度(Velocity)快,需要对数据进行近实时的分析。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。这一点和传统的数据挖掘技术有着本质的不同。第三,数据类别(Variety)大,大数据来自多种数据源,数据种类和格式日渐丰富,包含结构化、半结构化和非结构化等多种数据形式,如网络日志、视频、图片、地理位置信息等。第四,数据真实性(Veracity)大数据中的内容是与真实世界中的发生息息相关的,研究大数据就是从庞大的网络数据中提取出能够解释和预测现实事件的过程。第五,价值密度低,商业价值(Value)高。通过分析数据可以得出如何抓住机遇及收获价值。   二、大数据的来源   1.来自人类活动:人们通过社会网络、互联网、健康、金融、经济、交通等活动过程所产生的各类数据,包括微博、病人医疗记录、文字、图形、视频等信息。   2.来自计算机:各类计算机信息系统产生的数据,以文件、数据库、多媒体等形式存在,也包括审计、日志等自动生成的信息。   3.来自物理世界:各类数字设备、科学实验与观察所采集的数据(如摄像头所不断产生的数字信号,医疗物联网不断产生的人的各项特征值,气象业务系统采集设备所收集的海量数据等。   三、大数据的处理技术   1.大数据的采集:来自于不同领域的大数据,其特点、数据量以及用户数目不同,按照结构特点,可划分为3种类型:结构化数据、半结构化数据以及非结构化数据。大数据采集的挑战是并发数高、流式数据速度快。   2.大数据的存储:改进的轻型数据库可用于完成大数据的存储并响应用户的简单查询与处理请求;而当数据量超过轻型数据库的存储能力时,则需要借助于大型分布式数据库或存储集群平台,且随着互联网技术和云计算技术的发展,建立在分布式存储基础上的云存储已经成为大数据存储的主要趋势。大数据存储的主要挑战是数据异构、结构多样、规模大。   3.大数据的分析及挖掘:大数据的分析涉及简单的统计分析以及分类汇总,其挑战在于导入数据量大,查询请求多;而大数据挖掘涉及数据的分类、聚类、频繁项挖掘等,其算法复杂,计算量大。   4.大数据可视化:大数据的挖掘及分析结果将在显示终端以友好、形象、易于理解的形式呈现以供专业人士分析结果的准确性或为用户提供决策信息支持。大数据呈现的挑战在于数据维度高、呈现需求多样化。   四、大数据获取   不同领域对应的数据采集方法以及工具也不同,如互联网领域中,用于日志采集的大数据获取工具Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe、LinkedIn的Kafka等,用于网络数据采集的网络爬虫或网站公开API等方式;物联网领域中,用于数据感知的MEMS传感器、光纤传感器、无线传感器等。数据产生以及采集方式的发展为大数据的获得提供了重要基础。   获取的大数据按照结构的不同,可分为结构化数据、非结构化数据以及半结构化数据。   五、数据的安全与隐私保护   隐私问题由来已久。互联网技术的发展使数据的传输,共享更加便利,而数据隐私问题则越来越严重。人们在互联网上的一言一行都掌握在互联网商家手中,例如淘宝知道用户的购物习惯、腾讯知道用户的好友联络情况、百度知道用户的检索习惯等。大数据的隐私保护与安全是大数据分析和处理的一个重要方面。大数据的隐私保护既是技术问题也是社会学问题,需要学术界、商业界和政府法律部门共同参与。   大数据时代的安全与传统安全相比,变

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档