大数据共享研究复习过程.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大 数 据 共 享 研 究 大数据共享研究 摘 要:文章介绍了大数据及大数据共享的含义,详细 介绍了实现大数据共享的硬件及软件条件。在硬件方面着 重介绍了大数据中心的模块建设方式,在软件方面比较系 统地介绍了大数据共享的相关技术手段等,对大数据相关 立法和政策进行了讨论和展望,文章紧贴当下大数据的发 展,在此基础上积极探索目前还尚未成熟的大数据共享领 域。 关键词:大数据;数据共享;平台 1 大数据共享的含义 1.1 大数据共享介绍 大数据共享,是让不同地方使用不同计算机、不同软 件的用户,即不同终端,按照一定的规定和安全共享机 制,通过网络(局域网或互联网)等读取他人共享的数据 并进行各种操作、运算、分析和管理的行为。从广义上理 解,大数据共享在内容上不仅包含了海量数据的共享,还 涉及到大数据软件程序、大数据科学和工程系统及大数据 的应用实践等内容。数据开放利用程度越高,信息知识作 为生产要素就会越高。 1.2 大数据共享的意义 大数据共享,涉及大数据技术及大数据应用,在实际 应用上大数据共享具体体现在海量数据的共享、大数据平 台的共享、大数据技术的共享和大数据应用共享。大数据 共享的特点,也更合理地体现了大数据自身的重要价值。 大数据共享使得不同层次、不同部门信息系统更加合理地 进行资源配置、节约社会成本、创造更多价值,不仅能提 高信息资源利用率,避免在信息采集、存贮和管理上的重 复浪费,有利于更合理安排物力和财力,发挥人的更大价 值。从发展上看,工信部电信研究院政经所马志刚认为数 据开放与共享是提高社会生产力的重要前提,这里所探讨 的大数据共享也更清晰地把数据共享这项发展性的工作落 到实处。 2 大数据共享的软实力建设 大数据共享软实力包含大数据共享平台架构之 Hadoop 技术、流计算、数据仓库、信息整合、大数据搜索引擎、 大数据可视化、大数据应用程序开发、管理系统和共享安 全机制等。 2.1 大数据共享平台架构之 Hadoop 技术 Hadoop 是 Apache 基金会开发的一个开源分布式系统基 础架构项目, Hadoop 主要核心由 HDFS 、MapReduce 组 成,包含 HBase 和 Hive 等经典子项目。 Hadoop 底部利用分 布式存储系统( HDFS )将文件分布式存储到硬盘,上部 MapReduce 将大的数据分成小块逐个分析,再提取出数据 汇总分析,编写简单的需求命令获得所需数据内容。 2.2 流计算 流计算面对的是存贮在硬盘、内存或者其他地方的已 存数据。流计算是指数据和控制在一个分布式网络中以某 种流的形式传递,网络中的节点对流进行处理和分发,同 时这些流往往具有高实时和高流量的特点,再形象化一点 描述就是在数据产生并流入系统时就进行处理并马上得出 结果。因而区别于以往基于 RPC 和 RMI 的分布式系统,也 区别于 Hadoop 的相对静态的处理系统。流计算面对的是没 有存储下来的实时的网路数据流,计算意义在于对数据挖 掘处理后选取可以提取有价值的信息存储下来,不会对原 始数据进行存储,并且数据流的价值随时间流逝而降低。 基于实时数据的流处理是大数据发展到现在已经相对成熟 的技术。 2.3 数据仓库 有关大数据的共享,必须依赖一定硬件条件,这里引 入数据仓库的概念,数据仓库是一个集成的、面向主题 的、随时间变化、非易失的数据集合。数据仓库区别于数 据库,数据仓库相当于一个环境,为用户提供用于决策支 持的非结构化和半结构化的当前或历史数据(传统的操作 型数据库中很难或无法得到)组成数据仓库系统的要素简 单概括为数据仓库式数据库、数据载入工具、数据抽取工 具、信息发布系统、操作型数据、外界数据、访问工具、 数据集市、操纵平台、元数据及管理平台。 2.4 信息整合 信息整合,是指通过逻辑或者物理的方式把某一范围 内多元的、异构的、离散的、分布的信息资源,组为一个

文档评论(0)

霸霸 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档