- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大型数字化项目范围限定与术语辨析
大型数字化项目范围限定与术语辨析
[摘要]首先划分大型数字化、大规模数字化、非大型数字化等数字化项目的类型,并列举各类型的相关术语。通过对术语的辨析,得出MD界定的关键为是否存在资源选择和参与MD的动机。然后从MD的开展情况入手,调查各MD项目的开展动机和资源选择标准。最后得出结论,资源选择标准是大型数字化项目必要组成部分。
[关键词]大型数字化项目
资源选择标准
大范围数字化
[分类号]G250.76
图书馆从20世纪90年代中期开始从事大量馆藏纸质文献的数字转化工作,著名的项目有古登堡计划、百万图书项目(MiHion Book Project,MBP)等。2004年由Google与哈佛大学图书馆等5个图书馆(G5)合作开展的Google图书搜索(GooSe Book Search,GBS),使得大型数字化项目飞速发展。2005年建立的开放内容联盟(Open Content Alliance,OCA)也拥有众多的合作图书馆,如多伦多大学图书馆、加州大学图书馆、波士顿图书馆联盟等,同时由惠普实验室、微软、雅虎、Adobe等公司提供技术和设备支持;微软还于2006年研发了专门用于图书检索的搜索引擎Live BookSearch。为回应GBS,欧洲于2006年开始建立欧洲数字图书馆(European Digital Library,EDL),对来自欧洲各国的文化遗产进行大范围数字化,通过网络提供多语言的一站式服务并于2008年10月投入使用。
1 数字化项目的类型划分
尽管数字化项目已广泛开展,但其类型划分却始终没有统一标准,尤其一些相关术语,如大型数字化(Mass Digitization,MD)、大规模数字化(Large-ScaleDigtization,LSD)等有待进一步明确区分。
1.1 大型数字化
Karen Coyle提出,MD是比LSD范围更大的一种数字化项目,它以工业化生产模式对资料进行数字转换,将整个图书馆馆藏不加筛选地转换。MD的目标不是创造馆藏而是全部数字化,即数字化所有印刷型图书。为了更经济有效地实现这个目标,MD需要高效率地扫描每页图书,通过OCR识别这些扫描图片形成可检索文档。人工干预被降到最低,这样OCR生产出的可检文档就可作为检索资源使用而不必再进行修改。当然,MD也需要一些人工操作,如添加页码,表格内容等,因为这些无法通过OCR自动生成???。
Karen Coyle对MD的界定在业内广受支持,加州大学数字图书馆(California Digital Library,CDL)的大型数字化项目在网站的FAQ中直接引用了该定义。在“密歇根大型数字化项目影响的高峰论坛”上,Clif-ford Lynch认可通过范围划分数字化项目,称“图书馆、档案馆和博物馆对其馆藏的古老文献基于保存和检索目的进行的数字化称之为大规模数字化更为合适,而不是大型数字化;因为现在和未来会进行不同规模的数字化项目,而上述机构的规模还达不到‘大型’的要求”。
1.2大规模数字化
与MD相比,LSD最大的特色在于选择性数字化。LSD同样生产大量的扫描页面,但其关注馆藏并生成一系列文档,用于数字文本的检索和保存。而其他方面,如扫描图书的数量、扫描速度等方面,LSD与MD并无本质区别。LSD项目的典型案例有美国国会图书馆的“美国记忆”、美国国家科学基金赞助的“百万图书项目”以及很多大型图书馆开展的数字化项目等。
1.3非大型数字化
对数字化资源进行精心挑选的数字化项目,称为非大型数字化。这是基于保存目的兴起的数字化项目,为日益恶化的文献生产替代品,或为使珍贵的资源得到更广泛应用,如维吉尼亚大学图书馆的E-TEXTprojeet和Adobe公司的Octavo Editions。MD的最终产品是对图书页面的扫描,并以可检索的OCR形式进行备份,缺少深层的信息加工组织;而非大型数字化的终端产品则生成大量已标识的文本,提供大规模的使用。
1.4 MD与LSD合为一类
此类划分认为MD与LSD之间没有本质区别,承认资源选择标准存在的必要性,建议模糊两者的区分标准。Clifford Lynch认为对于图书馆的藏书来讲,没有全部和最终的概念,图书馆的馆藏包括数据库、手稿、音乐、图片、多媒体等各种形式,采用LSD的概念反而更容易清晰分辨用户的需求,建议用LSD代替MD,因为相较于MD,LSD更适合规划。Conway认为,MD就是一系列LSD项目的累积,是为社会大众进行的数字化;CDL的John A,Kunze提出“所谓大型数字化,就是在世界主要的图书馆对报纸、图书、视频等文献类型进行大
文档评论(0)