- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于GFS数字资源在线服务与访问统计研究
基于GFS数字资源在线服务与访问统计研究
摘要:数字资源的在线服务应具备资源丰富、高可靠性、高稳定性、响应时间短等特性,通过分析全局文件系统(GFS)的体系结构和特性,提出了构建一个基于GFS文件系统的数字资源在线服务与实时统计框架,可以满足数字资源大容量、高性能的存取要求。在提供高性能服务的同时,对用户的访问信息进行统计,用以指导数字图书馆的工作。
关键词:GFS;数字资源;在线服务;并发访问;访问统计
中图分类号:C93 文献标志码:A文章编号:1002―2589(2010)32―0148―02
随着图书馆馆藏文献数字化、网络化的发展,图书馆网站向读者提供的数字资源服务也越来越多,这些服务包括图书馆门户、读者借阅信息查询、参考咨询、电子书刊在线传递、地方特色资源库等[1]。数字资源的快速增长使用户对其存取、管理和服务的质量要求与日俱增。目前,图书馆在数字资源的长期保存方面有很多成熟的技术方法,如数据迁移、数据仿真、数据封装、数据考古、数据转换等[2],这些技术可以基本满足数字资源的长期存储。然而,数字资源不仅要长期保存,更要满足读者检索访问的需求。数字图书馆的根本目标就是通过一系列服务机制有效支持用户利用信息来学习和创造知识[3]。
目前,一些图书馆考虑到数字资源网络存储空间的问题,只提供极其有限的数字资源的在线访问,绝大多数的数字资源以光盘、硬盘、磁带等载体形式存入库房,读者需要到图书馆经过大量繁杂的手续才能获取此类资源。这无疑会对读者的使用体验和载体的保存带来不便。那么,在做好数字资源长期保存工作的基础上,如何为读者提供便利的访问,是目前数字图书馆亟待解决的问题之一。对于图书馆本身,为了提高自己的竞争力,也需要主动出击,了解用户需求,即要对用户的行为作跟踪并进行相关的数据统计,进而主动为用户提供相关的文献资源作参考,充分利用图书馆的丰富馆藏资源,做到有的放矢地为用户服务。
一、数字资源在线服务的要求
读者在图书馆网站检索数字资源与普通用户使用搜索引擎的一般检索有很大区别。因其检索的目的性强,要求获取资源时间短,并且要顺利获取检索到的目标资源。这就要求数字资源的在线服务具备以下的特征:(1)线上资源丰富。数字图书馆要提供大量的数字资源的在线访问,否则就会使用户对图书馆的馆藏资源失去信心,放弃选择图书馆来满足自己的检索需求。(2)网络服务稳定。即要求在线服务系统要有高的可靠性和容错机制,保证用户的检索能够连续流畅的进行。(3)响应速度快。要求在线服务系统可以迅速处理大量用户的并发请求,并及时给予回复。(4)方便获取。当用户检索到满足需求的文献时,要能够顺利、迅速的获取。(5)可并发访问。系统应有能力处理多用户对同一数字资源的同时访问。
二、基于GFS的数字资源在线服务与访问统计框架
1.GFS文件系统。GFS(Global File System)是一个基于共享、网络存储的分布式的文件系统[3]。该文件系统又分为分布式存储系统(DFS)、分布式计算(DCS)和分布式表格系统(DTS)三部分。
DFS:Distributed File System,分布式数据存储系统,实现了分布式的海量数据存储以及极大的数据写入、读出的聚合带宽,并具备可扩展性,内置自我监控、错误检测、自动恢复和容错等功能。
DCS:Distributed Computing System,分布式计算系统,构建于DFS之上并与DFS共用一个集群,实现了一个分布式的执行框架和一个有约束的编程模型。程序员只需在该编程模型下编写普通的串行程序,DCS将自动把该代码分布到数十台乃至数百台机器上并发执行再合并运行结果。
DTS:Distributed Table System,分布式表格系统,构建于DFS和DCS之上,类似于传统关系数据库,通过迥异的编程接口,实现“数十亿行×数千万列”、PB存储容量的表格的多种操作的快速和并发进行。
DFS提供PB级的存储能力,支持任意尺寸的文件以及任意位置的读、追加写(append)和覆盖写(overwrite)等操作,并具备良好的大数据量的顺序读和追加写性能,尤其是数以百计乃至更多的并发的顺序读和追加写操作。数字图书馆有海量的数字资源,而DFS恰好可以满足对这些资源的存储,不仅如此,DFS有很好的容错性、高可靠性和自动恢复机制,利用这些功能特点,就可以为用户提供稳定的、高可靠性的服务。DFS与DCS的共同工作下,DFS能够达到几GB/s乃至几百GB/s的聚合IO带宽,从而实现海量数据的快速读取与处理。DFS、DCS和DTS三个子系统的重要功能特征正是图书馆海量数字资源的存储、用户检索日志的存储、分析和处理,解决数字资源的并发访问和访问日志信息的
文档评论(0)