- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向大数据时代的图书馆知识服务.doc
面向大数据时代的图书馆知识服务
〔摘要〕本文简述了大数据的基本概念、特点、处理流程和处理模式,探讨了在大数据时代,图书馆将在数据集成、数据分析和数据隐私问题等方面面临着巨大的挑战与考验,最后,提出了大数据时代图书馆如何利用大数据技术在知识服务方面进行创新,从而提高图书馆的核心竞争力,以应对未来可能面临的生存危机。
〔关键词〕大数据;知识服务;个性化
DOI:10.3969/j.issn.1008-0821.2013.10.007
〔中图分类号〕G250〔文献标识码〕A〔文章编号〕1008-0821(2013)10-0033-05
随着云计算、物联网等技术的兴起,以及博客、微博、社交网络和基于位置的服务LBS(location based service)等新型信息发布方式的不断涌现,再有极其微小带有处理功能的传感器广泛布置于社会的各个角落,监控整个社会的运转,新数据源源不断的从这些设备自动的产生,今天数据的增长速度前所未有,随着数据的迅速增长和累积,大数据时代已经来到,社会各界都已经开始密切关注大数据问题,并对其产生浓厚的兴趣。如:学术界,早在2008年《Nature》就推出了Big Data专刊[1];IT业界,全球知名的咨询公司麦肯锡(McKinsey)2011年6月份发布了一份关于大数据的详尽报告“Big data:The next frontier for innovation,competition,and productivity”[2],对大数据的相关问题进行了详尽的分析。进入2012年,人们对大数据的关注更是与日俱增。2012年3月份美国奥巴马政府发布了“大数据研究和发展倡议”[3](Big data research and development initiative),正式启动“大数据发展计划”。计划利用大数据技术在科学研究、环境、生物医学等领域进行突破。2012年5月联合国一个名为“Global Pulse”的倡议项目也发布报告[4],对大数据的应用进行初步的解读,并阐述各国特别是发展中国家在大数据时代面临数据洪流(data deluge)时所遇到的机遇与挑战。同时,媒体也发文宣传介绍大数据,如《纽约时报》的文章“The age of big data”[5],使普通民众开始意识到大数据的存在及可能产生的影响。
1大数据
1.1大数据的基本概念和特征
大数据的概念本身比较抽象,目前尚未有一个公认的定义,维基百科的定义则简单明了[6]:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。在大数据的定义问题上,一般从对大数据特征的阐述和归纳上给出定义,如认为大数据有4个特点的4V定义[7-9]:(1)从体量(Volume)上,数据规模庞大;(2)从类型(Variety)上,模态繁多,结构化、半结构化、非结构化三者融合,并且半结构化和非结构化数据所占份额越来越大而且在相当长的时期内非结构化数据会占据大数据的主体;(3)从时速(Velocity)上,生成快速,其主要特征是数据的快速和实时化;(4)从价值(Value)上,价值巨大但密度很低,大数据的价值往往呈现出稀疏性的特点。
大数据除上述4V定义阐述和归纳的特征外,还应具有如下特征:首先在数据模式(schema)和数据的关系上,不同于传统的数据库都是先有模式,然后才产生数据,而是先有数据而后才能确定模式,且模式随着数据量的增长处于不断的演变之中;再者在处理对象上,对大数据我们需要从根本上转变思维,大数据不仅是数据处理的对象,更是一种基础资源,我们可用数据这种基础资源来协同解决其他诸多领域的问题。图灵奖获得者、著名数据库专家Jim Gray博士提出了一种新的被他自己称之为“第4种范式”(The Fourth Paradigm)的数据探索型科学研究方式[10],第4种范式的实质就是数据思维,从以计算为中心转变到以数据处理为中心,采用第4种范式来作指导的典型的科学研究领域,如:计算社会科学(computational social science)[11]。
1.2大数据的处理流程和处理模式
数据收集的根本目的是根据需求从数据中提取有用的知识,并将其应用到具体的领域之中,大数据的出现必将颠覆传统的数据管理方式。大数据的数据来源广泛、应用需求和数据类型都不尽相同,但是最基本的处理流程是一致的。整个大数据的处理流程可以定义为在合适工具的辅助下,首先对广泛异构的数据源进行抽取和集成,按照一定的标准将结果统一存储,然后利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识,最后将结果以恰当的方式展现给终端用户。具体来说可以分为数据抽取与集成、数据分析以及数据解释[12
文档评论(0)