- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据思维下图书馆的数据采集与分析
2012年,伟芬雷布被称为“大数据跨界”。从那时起,我们进入了大数据时代。据陆静对中国知网和OCLC Article First数据库所做文献统计, 研究大数据的文献经过10 多年的发展, 于2012 年出现一个飞跃: 从2011 年的41 篇猛增到当年的324 篇, 2013 年更多达819 篇, “ 大数据” 成为IT界、企业管理界和图书情报界的热门话题。 2013年9 月30 日的中共中央政治局第九次集体学习, 听取了对大数据发展情况的讲解。各行各业都在探讨大数据时代给本行业的发展能带来哪些机遇或者威胁, 都希望在大数据时代到来之际, 能够及时抓住机遇、规避风险, 乘势而上加速发展。图书馆行业也不例外。高等院校图书馆、社科院图书馆、国防科技信息学会等系统召开了专题研讨会;据文献统计, 图书馆界发表有关大数据的论文, 2012 年有4篇, 2013 年达21 篇。 “大数据”也正在成为我国图书馆界研究的热点话题。
一、 图书馆的共同性
高校图书馆虽然有自己特有的任务和定位, 但在大数据时代到来之际, 面临所有图书馆需要应对共性的问题。 依笔者管见, 我国图书馆界的当务之急是:通过学习大数据理论实现观念、知识和技术的更新, 通过馆藏数字化工程和网络数据搜集建设新型资源, 开展切实可行的大数据读者服务探索。
(一) 了解数据和信息
与传统图书馆实现自动化、 数字化进程相类似, 我国图书馆要跟上大数据时代的前进步伐, 首要任务是虚心学习大数据理论。我们要学习大数据首倡者的有关论著, 学习对大数据的推广做出重要贡献的研究者的成果, 学习走在前列的先进国家图书馆同行们在大数据领域的有益探索和实证应用;弄清楚大数据的概念内涵、 大数据的标志性特征、大数据区别于纸质文献的特性, 从而确立起大数据概念体系、思维观念、行为模式;学习有关大数据的各种知识, 比如数据和大数据的科学概念, 大数据为什么被称为“破坏性技术”“颠覆性力量”, 数据与文献、信息、知识的区别与联系, 数据与数字的联系与区别, 大数据与传统意义上的数据的联系与区别, 数字化阅读与阅读数据化、数字化服务与服务数据化、 管理信息化与管理数据化的联系与区别, 如此等等。了解与大数据有关的各种计算机及其通信技术, 例如Hadoop和Map Reduce等数据管理处理技术, 大数据智能识别、传感与适配技术, 大数据知识服务模式、体系架构、资源分类及平台标准规范, 大数据知识服务全生命周期过程中的虚拟化接入技术, 大数据知识服务交易模型研究、质量评价体系、支持多元化可视化大数据知识服务终端交互技术等。只有完成了这样的知识结构更新, 图书馆人才能领到进入大数据时代的通行证。
(二) 大数据的内涵、特点和复杂性
在大数据研究先行者看来, 大数据“最初, 这个概念是指需要处理的信息量过大, 已经超出了一般电脑在处理数据时所能使用的内存量, 因此工程师们必须改进处理数据的工具”, “这导致了新的处理技术诞生, ……。 这些技术使得人们可以处理的数据量大大增加”。 “这种对大量的人机数据进行捕捉、存储和分析, 并根据这些数据做出预测的能力, 就是我们所说的大数据。”由此, 可以看出, 大数据有三种含义: 一是说由于信息技术的高速发展, 使得能够采集、存储、长期保留的数据越来越多, 即指海量数据; 二是说处理分析数据的能力越来越强, 处理速度越来越快, 处理成本越来越低, 即指高新技术;三是说人们有能力根据采集、存储的数据, 进行分析挖掘处理并做出预测, 即指数据驾驭能力。维基百科称 “大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集”, 这说明它持第一种观点。 权威的IT研究与顾问咨询公司Gartner、 美国国家科学基金会等的界定与此大同小异, 均认为大数据与“海量数据”、“大规模数据”的概念一脉相承。总之, 业界对于什么叫大数据, 迄今为止尚未得出一个普遍认可的定义。这就提醒我们, 必须持续关注国内外有关大数据的研究动向。
大数据的特征, 几乎是所有探讨大数据的论文必提的问题。 其中, 文献介绍说, 大数据有四个主要特征, 业界取其英文首字母概括为四个“V”:Volume指数据体量巨大, 从TB级别跃升到PB、ZB级别;Variety指数据类型繁多, 包括流行的网络日志、视频、图片、地理位置信息等;Value指价值密度低, 如视频在连续不断的监控过程中可能仅仅一两秒是有用的数据;Velocity指处理速度快, 基本上贯彻一秒定律, 从而与传统的数据挖掘技术有本质区别。
关于大数据的复杂性, 也是普遍关心的问题。与大科学时代纸质文献的复杂性不同, 大数据的复杂性呈现三个维度:一是数据类型复杂。 例如在网络上, 既有数据库、图书
文档评论(0)