- 4
- 0
- 约7.62千字
- 约 7页
- 2023-12-02 发布于广东
- 举报
大数据背景下图书馆的数据管理研究
随着社会的快速发展,网络验证过程中的数据快速增长达到前所未有的水平。Facebook每天生成300TB(注:1024GB=1TB;1024TB=1PB;1024PB=1 EB;1024EB=1ZB)以上的日志数据,Google公司每个月处理的数据量超过400PB,百度每天约处理几十PB数据,淘宝网每天交易能产生约20TB数据。根据国际数据公司IDC2011年发布的Digital Universe Study,全球信息总量每过2年,就会增长1倍。仅在2011年,全球被创建和被复制的数据总量为1.8ZB,且每年以60%增加,2020年全球每年产生的数字信息将达到35ZB。数据的爆炸式增长超出人们的想象,“大数据”(Big Data)时代已经来临。大数据是继云计算、物联网以后,信息科技等行业又一次大的技术变革。
最早提出“大数据”概念是麦肯锡公司(Mckinsey and Company)。2011年5月,麦肯锡公司在大数据的报告中指出:数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。其后,大数据迅速成为政府及信息科技等行业关注的热点。2012年3月,美国政府启动“大数据研究和发展计划”,将“大数据研究”上升为国家战略高度;一些著名企业如IBM、EMC、Microsoft开始对大数据进行研究。大数据最典型的应用是在沃尔玛公司利用大数据技术创造的“啤酒与尿布”的经典商业案例。互联网企业Google及Facebook之所以取得令人瞩目的成绩,其核心的本质就是其公司记录和分析了用户网络操作的大数据,从而精确掌握用户行为、形成预判。图书馆是信息搜集、存储和进行知识服务的机构。在大数据时代下,如何进行数据管理;如何以“大数据”为基础,帮助用户从海量的数据中快捷发现与获取信息资源;如何挖掘用户行为特征,实现个性化、定制化的智慧服务等等都是图书馆面临的新的挑战与机遇。本文对此进行了深入的分析与研究,主要阐述了大数据带给图书馆的影响与挑战,分析了大数据对图书馆的重要性,重点探讨了图书馆的大数据建设若干策略及图书馆的大数据服务模式。
1 互联网时代是一个使用频率高、多样性和易变性的良好时代
什么是大数据?目前,还没有一个统一的定义,简单一点可以理解为超出传统数据管理工具处理能力的大规模、复杂的数据集合。IBM公司认为大数据具有“3 V”特点,即种类(Variety)多、速度(Velocity),快、容量(Volume)大。但以IDC为代表的业界将其归纳为具有“4V”特征——海量(Volume)、多样性(Variety)、高速(Velocity)和易变性(Variability)。不管是“3V”,还是“4V”,其内涵包含了以下这些特性。第一,数据体量巨大。“大”是指数据规模,一般指在10TB规模以上的数据量。一部《史记》,共5265 00字,约1MB数据,一组用于基因研究的染色体照片数据量超过2TB。第二,数据类型繁多。这种类型的多样性也让数据被分为结构化数据和非结构化数据。互联网的迅猛发展,现在的数据类型早已不是单一的文本形式,还包含了大量的网络日志、微博、视频、图片、邮件等大量的半结构化与非结构化数据。第三,价值密度低。价值密度的高低与数据总量的大小成反比。大数据中有很多垃圾,有很多不相关的信息,只有一些有用的信息隐藏在大数据信息里面。以视频为例,一部一小时的视频监控过程中,可能有用的数据仅仅只有一两秒。第四,处理速度快。大数据里面很多是实时数据,像微博、社会网络、SNS这些,要求它进行立竿见影的分析和处理,而不是事后追诉。
2 图书馆系统发展现状
随着信息化建设的发展,图书馆除了本身包含的大量数字资源外,日益增长的电子资源,高速网络及移动图书馆的普及,云计算、RFID、语义网、社交网络等新技术的发展提供了广泛的数据来源,图书馆正在迎接大数据时代的到来。
2.1 文献的存储与管理
信息技术的发展极大地促进了图书馆数字资源的生产,形成了包括电子图书、电子期刊、数据库、音视频资源、网络资源在内的海量数字资源,电子资源种类和数量正在超越纸本资源。据调查,全球新产出的信息量每3年翻一番,大约90%的信息都是以数据形式储存。截至2011年底,中文网页数量达866亿个,年增长率达44.3%。文献的出版方式发生巨大的变化,数字出版日益普及,截至2010年底,中国电子书总量已达115万种,年新增18万种。单独出版的数字报已达700份以上,电子期刊已近万种。2010年底,清华图书馆机房有110台服务器,集中存储170TB,国家图书馆资源总量达到470TB。这些资源分布在不同的系统中,形态不同,组织方式各异,既包括传统文献的数字化,也包括各种类型的原生数字资源,还包括其它虚拟馆藏等各种多媒体资源。各种电子资源的积累,
原创力文档

文档评论(0)