大数据与图书馆服.pptx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据与图书馆服

大数据与图书馆服务 摘要:通过对大数据特征和国内外现状的详细分析,对大数据时代的图书馆服务提出了三点思考,对图书馆利用大数据提出了期望。 关键词:大数据;图书馆服务 大数据概论 大数据(bigdata),或称海量数据,是用来描述海量的结构化和非结构化数据的专业术语,包括业务流程数据,如天文望远镜拍摄的图像视频数据、气象学里面的卫星云图数据等;企业大数据,如物联网、联通、移动、电信等通信和互联网运营商的数据等;社会大数据,如社会性网络服务(SNS)、微博、新闻媒体、视频网站、电子商务、招聘信息等;个人大数据,如个人实时位置、状态、见闻、言论等;科学大数据,如各种学科数据库等。大数据所描述的数据量规模巨大到无法通过传统的数据库和软件技术进行存储、管理和处理。作为这两年的热词,大数据是继Web2.0、数据仓库、数据挖掘和云计算之后为计算机界所主要研究的对象。 在感知上,大数据是指难以用常用的软件工具在可容忍时间内抓取、管理以及处理的数据集合,大数据之所以可能成为一个“时代”,在很大程度上是因为这是一个可以由社会各界广泛参与的社会运动,而不仅仅是少数专家学者的研究对象。 大数据特征 数量Volume 第一个特征也是最重要的,大数据描述的是大批量数据,数据量级一般可以达到PB(1024TB)级规模,根据互联网数据中心(IDC)的监测,全球在2010年正式进入ZB(10243TB)时代,2011年全球数据量将达到1.8ZB,预计到2020年,全球将总共拥有35ZB的数据量。日益庞大的数据量使得人们对数据的有效利用日益重视,从而衍生了大数据概念。大数据需要处理的是各类统计、用户行为等数据,如企业的经营交易信息、商品物流信息、社会网络交流信息、位置信息等,数据规模极为庞大,有着自己独特的处理方案。 多样性Variety 大数据种类繁多,在编码方式、数据格式、应用特征等多个方面存在差异性,多信息源并发形成了大量的异构数据,因此不能再用处理结构化数据的方法来进行处理。 速度Velocity 大数据对数据实时处理有着极高的要求,需要实时反馈结果,捕捉、分析、处理每一瞬时出现的数据,因此通过传统数据库查询方式得到的当前结果很可能已经没有了价值。 真实性Veracity 大数据策略可以提供更为真实的数据,通过对大量数据的分析,在用户行为、数据总结和未来预测方面做出准确的判断,为政府、企业、科研决策提供了真实可靠的依据。 大数据技术及应用现状 大数据的研究是近几年开始的,为了适应大数据日益迅猛的发展,其技术发展很快。就目前来看,大数据技术主要涵盖的领域有可视化分析、数据挖掘算法、预测性分析能力、语义引擎、数据管理以及Hadoop、Map-Reduce、HDFS等。在大数据存储方面,有分布式缓存、基于MPP的分布式数据库、分布式文件系统和NoSQL数据库技术,通过这些技术,大数据的优势得以发挥,其数据才得以整合和利用,从而为社会带来效益的提升。近几年,大数据在国内外都有较快的发展。 国外发展现状 大数据的重要性已经得到了世界各国的共识,在2010年7月,联合国发布了《大数据促发展,挑战与机遇》白皮书,白皮书中指出,大数据时代已经到来,如今人们可以使用极其丰富的数据资源,包括旧数据和新数据,来对社会,对人口进行前所未有的实时分析。 2012年1月,在瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响:国际化发展的新机遇》宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。 同时各国也在积极研究和利用大数据。 2012年5月,美国政府发布了《大数据研究和发展计划》,此项带有2亿多美元推动资金的倡议,旨在通过推动和改善与大数据相关的收集、组织和分析工具及技术,提升从海量和复杂的数据集中获取知识和洞察分析能力,推动政府与公司、大学的合作结盟,全民动员来应对“大数据”时代的挑战。 美国政府推动的大数据计划也涵盖了图书馆部分,例如美国国家医学图书馆,开展了整合生物学及临床信息项目(i2b2:InformaticsforIntegratingBiologyandtheBedside),旨在创造能够整合和交换医疗保健和生物医学研究数据的方法和工具。通过i2b2开发的软件工具整合、挖掘和表现的数据,能够通过开源共享,在全球50多个组织进行使用。该项目就利用了大数据对于数据整合和共享的优势,实现了生物学和临床信息数据的共享。 美国有名的IT大公司,包括谷歌、Amazon、IBM、FACEBOOK、甲骨文等都在进行大数据开发和商业营运。例如谷歌推出了B

文档评论(0)

骨干 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档