- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据的概念与技术应用
[摘 要]在各种技术通讯手段高速发展的环境下,人们对事物数据获取与描述越来越全面,因此大数据也随之应运而生。本文在论述大数据概念的同时,也对大数据的4V理念的特点及大数据涉及的主要技术进行了说明,最后对大数据在我国的应用前景进行了简要的论述。以期,我们能够充分发挥出大数据的巨大潜能,使大数据技术更好地为我们的工作生活服务。
[关键词]大数据;概念;特征;技术;应用
中图分类号:TP274 文献标识码:A 文章编号:1009-914X(2016)20-0268-01
1.引言
随着现代社会科学技术及信息流通技术的高速发展,人与人之间的沟通交流越来越密切,大量的科技元素逐步融入到人们的日常生活中,生活也变得越来越方便快捷,大数据也随着时代的发展应运而生。大多数科技工作者们都意识到,未来的科技时代将不仅仅是IT时代,它更是一个数据科技(DT)的时代,DT在未来社会发展进程中将有着举足轻重的地位。
虽然大数据时代已经到来,但是对于大数据的基本概念理解,大数据的主要核心问题,大数据的采集、结构、挖掘技术等方面仍然存在一定的争议。在本文中作者对当前对大数据概念理解的几种主流思想进行综合论述,依照大数据生命周期中的几个主要阶段分析了其相应的技术处理方式,在此基础上,进一步对大数据应用的未来进行了讨论。
2.大数据的概念与特点
在大数据概念出现之前,我们经常接触到的一个概念就是海量数据,它是大数据概念的前身。但是两者之间仍然有所差别,海量数据主要强调了数据量的规模之大,并无对数据本身的特征进行有关的定义。然而,大数据概念不仅仅包含了数据量的规模之大,更包含了数据的传播速率之快,收集,分析及管理的难度之大,这种难度是无法在短时间内应用任何一种传统工具能够解决的。
人们根据大数据的数据总量大、数据类型多、数据价值密度低以及数据产生与处理速度快等四个特点,总结出了大数据的4V理念,即:
容量(Volume):数据量大是大数据的基本特征,一般认为大数据的最小单位为10-20T的量级,导致数据量急剧增加的原因主要有:随着互联网技术的广泛应用,人们获取分享数据信息显得相对简易;人们对事物数据的获取呈现多维化结构,使得描述事物的数据越来越丰富多样。
类型(Variety):数据类型多样复杂,是大数据最为重要的特征之一。随着互联网技术的快速发展,大量的非结构化数据极速涌现,这些数量来源于人们工作生活中浏览网页、上传下载图片及视频、发布微博等各种操作,在当前背景下,非结构化数据已经成为数据的主流,这样的数据难以用传统的结构化表格来存储、处理。
价值(Value):非结构化数据的一个显著特征就是数据价值密度低。主要原因在于,大数据更侧重于保存事物的原始数据,而不经过任何的抽象加工处理。这使得数据的绝对量出现剧增现象,而有效数据的比例也趋于降低。
速度(Velocity):要求极端快速的数据处理速度,这是大数据有别于传统数据的重要特征。随着互联网等各种数据获取、传输渠道的高速发达,大量呈爆炸式喷发的数据需要系统在规定的时间内进行存储、查询、分析等操作。否则,大数据无法被有效地利用起来。
3.大数据主要处理技术
大数据处理关键技术主要有:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘等。
3.1大数据采集技术
大数据采集分为感知部分和支撑部分,其中感知部分负责通过各种传感器实现对结构化、半结构化及非结构化数据的识别、传输及管理等工作;支撑部分则为大数据提供服务平台、数据库等网络硬件资源。
3.2大数据预处理技术
主要负责对采集的数据进行初步处理工作,主要包括抽取及清洗技术。其中,抽取技术负责将各种结构和类型的数据进行尽可能的转换使其成为单一结构或者更加便于进一步分心的结构类型;清洗技术则负责去除数据中的无价值内容,以便提取出更为有效的数据。
3.3大数据存储及管理
该部分工作主要包括大数据的存储、管理及安全技术等,其中存储部分要求有能够提供可靠的分布式文件存储系统,能有效地优化存储,能满足大数据的去冗余与性价比高的大数据存储技术;管部分要求要有能够高效地实现大数据的移动、备份及复制等技术,能提供大数据可视化技术;安全部分需要有能够实现分布式访问控制,数据审计,隐私保护,数据真伪识别及数据完整性验证等技术。
3.4大数据分析技术
越来越多的应用涉及到大数据,这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以,大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。当前主要分析技术有:Hadoop、Hive、Sqoop及Zookee
您可能关注的文档
最近下载
- 风险管理与金融机构第二版课后习题答案+(修复的)()详细分析.doc VIP
- 白砂糖仓库管理方案范本.docx VIP
- 初中语文2024届中考成语专项练习(共20道选择题,附参考答案).doc VIP
- 最新版个人征信报告模板(word版-可编辑-带水印).docx VIP
- 部编版语文三年级下册第三单元3单元整体作业设计.docx VIP
- 新22J04-1 内装修一(墙面、吊顶)参考图集.docx VIP
- GB50278-2010 起重设备安装工程施工及验收规范.docx VIP
- 达索BIOVIA COSMOtherm 2020 用户指南.pdf
- 智慧养殖在线监测系统微型水质自动监测系统使用说明书.pdf
- 铜、铅、锌、银、镍、钼矿地质勘查规范.pdf VIP
文档评论(0)