- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
??
?
??
大数据在信息技术应用创新领域的应用实践
?
??
?
?
?
?
?
?
?
???
?
?
?
?
?
摘要:大数据时代真正的战略意义并不在于掌握巨量的数据资料和信息,更重要的是对这些数据信息进行专业化的处理。大数据时代的来临必将引起信息技术爆炸式发展,进而增强数据的快速获取能力和加工处理能力,实现数据资料的增值开发和应用。因此,深入研究和探索新一代信息技术的发展薪趋势、新机遇,准确掌握新一代信息技术在传统产业技术改造和转型升级中的新需求、新应用。
关键词:大数据;信息技术;应用创新;领域应用
引言
大数据概念的前身是海量数据,但两者有很大的区别。海量数据主要强调了数据量的规模,对其特性并没有特别关注。而大数据对传播速率、体积、特征等数据的各种特性进行了描述。目前对大数据最广泛的定义是:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合。大数据的特点一般用“4V”概括,即:Volume:数据量大,目前大数据的最小单位一般被认为是10~20TB的量级;Variety:数据类型多,包括了结构化、非结构化和半结构化数据;value:数据的价值密度很低;velocity:数据产生和处理的速度非常快。
1大数据时代概述
第三次科技革命的到来,推动了科学技术的发展,大数据时代的到来奠定了技术基础。大数据是指信息数据资源极多,数据资源规模巨大,现代的信息技术不能有效的对这些信息数据进行管理和获取,为国家和企业的发展提供重要的信息资源。大数据时代不是掌握了足够多的信息资源就会取得胜利,重要的是对这些信息数据进行有效的处理和应用,国家和企业要提高对信息数据的处理能力,使获取的信息增值。
大数据时代中数据信息具有以下特点:数据量大:信息资源的量级已经由原来的TB级发展到如今的PB级,信息资源量呈爆炸式增长;数据多样化:大数据时代中数据的种类很多,数据已不仅仅局限于文字信息,还包括图片、视频、语音等半结构和非结构的信息资源。数据处理的快速化:因为数据信息的流动非常快,在信息数据处理时就必须快速、及时的处理;处理工具也在不断的改进和完善。数据的利用率低:我们以监控画面为例,在整个监控视频中真正有价值的片段非常少,可能只有几分钟或者几秒,视频有效的数据少。数据的分析难度大:对大数据进行分析处理时,需要专业的数据分析人员对数据细致的分析研究。
2大数据相关技术
2.1大数据处理通用技术架构
大数据的基本处理流程与传统数据处理流程的主要区别在于:由于大数据要处理大量、非结构化的数据,所以在各个处理环节中都可以采用并行处理。目前,MapReduce等分布式处理方式已经成为大数据处理各环节的通用处理方法。MapReduce分布式方法最先由谷歌设计并实现,包括分布式文件系统GFS、MapReduce分布式编程环境以及分布式大规模数据库管理系统Bigrable。
MapReduce是一套软件框架,包括Map和Reduce两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。MapReduce的工作原理是先分后合的数据处理方式。Map即“分解”,把海量数据分割成若干部分,分给多台处理器并行处理;Reduce即“合并”,把各台处理器处理后的结果进行汇总操作,以得到最终结果。
用户只需要提供自己的Map函数以及Reduce函数就可以在集群上进行大规模的分布式数据处理。MapReduce将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。
2.2大数据采集
大数据的采集是指利用数据库等方式接收发自客户端(Web、App或者传感器形式等)的数据。大数据采集的主要特点是并发访问量大,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站的并发访问量在峰值时达到上百万,这时传统的数据采集工具很容易失效。大数据采集方法主要包括:系统日志采集、网络数据采集、数据库采集、其他数据采集等四种。
2.3大数据分享
目前数据分享主要通过数据集市和开放数据平台等方法实现。开放数据平台可以提供涵盖本地服务、娱乐、教育和医疗等方方面面的数据集合,用户不但可以通过API访问,还可很方便地通过SDK集成到移动应用当中。在线数据集市除了提供下载数据的功能外,还为用户提供上传和交流数据的场所。数据平台和数据集市不但吸引有数据需求用户,还能够吸引很多数据开发者在平台上进行开发。
2.4大数据预处理
数据预处理就是对采集的数据进行清洗、填补、平滑、合并、规格化以及检查一致性等处理,并对数据的多种属性进行初步组织,从而为数据的存储、分析和挖掘做好准备。通常数据预处理包含三个部分:数据清理、数据集成和变换和数据规约。
2.5大数据存储及管理
大数据需要行之有效的存储和管理,否则人们不能处理和利用数据,更不能从数
文档评论(0)