- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅析大数据对图书馆的影响及对策.doc
浅析大数据对图书馆的影响及对策
关键词:大数据;图书馆;影响
摘 要:文章从大数据给图书馆带来的各种变化出发,提出了图书馆应转变观念、理解大数据理念、制定图书馆大数据管理机制、积极学习大数据相关技术、加强大数据人才培养等建议,以期图书馆能够更加从容地面对大数据时代的到来。
中图分类号:G25 文献标识码:A 文章编号:1003-1588(2014)01-0109-02
作者简介:安宗玉(1987-),河北大学管理学院图书馆学硕士。
关于大数据的概念目前尚无明确的定义,大家普遍认可的定义是“无法在一定时间内用传统软件对其进行内容抓取、管理和处理的数据集合”。而我们可以通过了解大数据的4个特征更好地理解大数据,即规模大(volume)、类型多(variety)、速度快(velocity)、价值性(Value)。目前,关于大数据的实践大多集中于企业如何通过大数据优化其服务,但是大数据之所以备受瞩目是因为它在社会的不同领域都能产生深刻的影响,如:预测疾病爆发、改善教育、评估风险等,大数据对国家治理模式、企业决策、个人生活方式等也将产生巨大的影响。
1 大数据与图书馆
目前,大数据的应用多集中于企业,数据多是交易数据、Web日志、多媒体信息等社交媒体数据,却鲜有提及文献数据。事实上,图书馆所拥有的文献信息完全具备“大数据”的特征,如:数据规模巨大、更新周期短、文献类型多样,载体数字化、语种多样性、内容交叉等,这些数据既有结构化也有非结构化。因此,对于图书馆来说,深刻了解大数据的内涵和特征,清楚数据采集、存储、分析和挖掘流程中的大数据技术,发现大数据对图书馆产生的影响及图书馆该怎样应用大数据成了图书馆亟须思考和解决的问题。
2 大数据时代下图书馆发生的变化
图书馆的宗旨是通过研究用户、组织信息,将有价值的信息传递给用户,以满足用户的信息需求。用户的信息需求是图书馆存在和发展的根本,没有用户的信息需求,图书馆也就失去了存在的理由。在大数据时代下,图书馆的服务对象和目标没有发生变化,只是因为在不同时代下用户需求上升而对图书馆有了更高的要求,这个时候图书馆唯有及时地了解用户新的信息需求,改变信息处理方式及服务策略才能留住已有用户、发展新的用户,优化服务方式和内容,为用户提供有价值的信息。
2.1 用户需求发生变化
从服务的专业化、知识化水平来看,传统的服务都只限于为用户提供数据或信息,而大数据时代下用户更在意图书馆是否能为自己解决具体某一问题。因此,大数据时代下,用户不再满足于图书馆提供整篇的相关文献、资料或其他知识产品,非结构化的数据、学科态势分析、热点分析、关于某一专题不同载体的信息源或进行过加工的知识产品将会更加受用户欢迎。另外,用户之间关系数据、用户与群组、科研小组之间相互关系的数据和信息更是在大数据时代用户需要的信息服务。
2.2 数据规模与类型扩大
当前,数据规模从以前的TB级别跃升到PB级别(P为1,000个T,E为100万个T,Z为10亿个T)。而数据类型也更加的繁多,如:网络日志、音频、视频、图片、地理位置信息等。统计数据显示,世界结构化数据增长率大约是32%,而非结构化数据增长率则是63%,至2012 年,非结构化数据占互联网整个数据量的比例已达到75%以上。大量非结构化数据的出现更是对传统信息处理能力的极大挑战。
在图书馆界,非结构化数据虽然一直存在,但是图书馆对于非结构化数据并不重视,对于非结构化数据的研究基本为零。而在大数据时代,图书馆可利用的非结构化数据包括用户检索关键词、浏览历史、下载数据、流量数据及其博客、微博、移动图书馆等各种社交媒体产生的交互信息等,只有将结构化与非结构化数据相结合进行分析,才能充分发挥大数据的功能,发现其中的价值。
2.3 原有的信息采集模式和方法受到冲击
信息采集是信息处理的第一步,是大数据价值挖掘最重要的一环,其后的集成、分析、管理都基于信息采集。传统的信息采集主要依靠网络蜘蛛或其他网络信息采集软件,这些软件可以以一个或一组指定的URL为浏览起点, 按某种算法进行远程数据的搜索与获取,采集内容一般是期刊、专著、学位论文、电子书、会议报告等结构化的出版物。但是,大数据时代下多类型的数据大多用非结构化数据库来解决,因此,图书馆也必须挑战信息采集模式,重新选择、定义信息源、采集内容、采集频率、采集量、采集工具等。如何依据本机构自身的数据特性,选择合适的、有针对性的采集模式应当成为需要深入探索的话题。
2.4 信息存储能力受到挑战
在大数据时代来临之际,我们面临的挑战还有存储问题。图灵奖获得者吉姆?格雷(Jim Gray)和IDC公司曾预测,全球数据量每18个月翻一番。目前,全球数
文档评论(0)