大数据共享的研究.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据共享的研究

大数据共享的研究   摘 要:文章介绍了大数据及大数据共享的含义,详细介绍了实现大数据共享的硬件及软件条件。在硬件方面着重介绍了大数据中心的模块建设方式,在软件方面比较系统地介绍了大数据共享的相关技术手段等,对大数据相关立法和政策进行了讨论和展望,文章紧贴当下大数据的发展,在此基础上积极探索目前还尚未成熟的大数据共享领域。   关键词:大数据;数据共享;平台   1 大数据共享的含义   1.1 大数据共享介绍   大数据共享,是让不同地方使用不同计算机、不同软件的用户,即不同终端,按照一定的规定和安全共享机制,通过网络(局域网或互联网)等读取他人共享的数据并进行各种操作、运算、分析和管理的行为。从广义上理解,大数据共享在内容上不仅包含了海量数据的共享,还涉及到大数据软件程序、大数据科学和工程系统及大数据的应用实践等内容。数据开放利用程度越高,信息知识作为生产要素就会越高。   1.2 大数据共享的意义   大数据共享,涉及大数据技术及大数据应用,在实际应用上大数据共享具体体现在海量数据的共享、大数据平台的共享、大数据技术的共享和大数据应用共享。大数据共享的特点,也更合理地体现了大数据自身的重要价值。大数据共享使得不同层次、不同部门信息系统更加合理地进行资源配置、节约社会成本、创造更多价值,不仅能提高信息资源利用率,避免在信息采集、存贮和管理上的重复浪费,有利于更合理安排物力和财力,发挥人的更大价值。从发展上看,工信部电信研究院政经所马志刚认为数据开放与共享是提高社会生产力的重要前提,这里所探讨的大数据共享也更清晰地把数据共享这项发展性的工作落到实处。   2 大数据共享的软实力建设   大数据共享软实力包含大数据共享平台架构之Hadoop技术、流计算、数据仓库、信息整合、大数据搜索引擎、大数据可视化、大数据应用程序开发、管理系统和共享安全机制等。   2.1 大数据共享平台架构之Hadoop技术   Hadoop是Apache基金会开发的一个开源分布式系统基础架构项目, Hadoop主要核心由HDFS、MapReduce组成,包含HBase和Hive等经典子项目。Hadoop底部利用分布式存储系统(HDFS)将文件分布式存储到硬盘,上部MapReduce将大的数据分成小块逐个分析,再提取出数据汇总分析,编写简单的需求命令获得所需数据内容。   2.2 流计算   流计算面对的是存贮在硬盘、内存或者其他地方的已存数据。流计算是指数据和控制在一个分布式网络中以某种流的形式传递,网络中的节点对流进行处理和分发,同时这些流往往具有高实时和高流量的特点,再形象化一点描述就是在数据产生并流入系统时就进行处理并马上得出结果。因而区别于以往基于RPC和RMI的分布式系统,也区别于Hadoop的相对静态的处理系统。流计算面对的是没有存储下来的实时的网路数据流,计算意义在于对数据挖掘处理后选取可以提取有价值的信息存储下来,不会对原始数据进行存储,并且数据流的价值随时间流逝而降低。基于实时数据的流处理是大数据发展到现在已经相对成熟的技术。   2.3 数据仓库   有关大数据的共享,必须依赖一定硬件条件,这里引入数据仓库的概念,数据仓库是一个集成的、面向主题的、随时间变化、非易失的数据集合。数据仓库区别于数据库,数据仓库相当于一个环境,为用户提供用于决策支持的非结构化和半结构化的当前或历史数据(传统的操作型数据库中很难或无法得到)组成数据仓库系统的要素简单概括为数据仓库式数据库、数据载入工具、数据抽取工具、信息发布系统、操作型数据、外界数据、访问工具、数据集市、操纵平台、元数据及管理平台。   2.4 信息整合   信息整合,是指通过逻辑或者物理的方式把某一范围内多元的、异构的、离散的、分布的信息资源,组为一个整体,使其有利于管理、利用和服务。信息整合包含三种方式,分别是数据整合、过程整合及内容整合。内容整合通过建立一个内容管理平台,进而对图片、多媒体等非结构化信息进行编辑、审核、校验以及分类管理,这样就可以控制信息发布和与访问的权限。数据整合将有价值的数据传递给分析系统或其他应用系统,再进行信息加工,集合不同的核心业务数据库为一个单一的数据库。   2.5 大数据搜索引擎   大数据搜索引擎基于大数据库,需要具备在大数据共享分析中充分发挥人工智能作用的软件技术能力,采用网页抓取技术智能地从互联网搜集信息,通过对结构化的数据、图表及视频等非结构化数据和半结构化数据进行检索,搜索引擎借助Reduce等工具,将数据聚合并采取并行处理,供给用户,构建搜索引擎服务。排序是搜索引擎最关键的技术,排序策略和算法决定了排序效果的优劣,其中搜索结果的排序作用重要,利用关键词在文档中出现的频率和位置以及基于链接分析排序等排序

文档评论(0)

189****7685 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档