古腾堡计划电子图书校对方法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
古腾堡计划电子图书校对方法

古腾堡计划电子图书校对方法 1引言 “古腾堡计划”是全球最具影响力的免费电子书网站之一。它由美国的迈克尔哈特(MichaelHart)创建于1971年。经过多年的发展,它已拥有超过38000种精校图书向全球读者提供免费服务,既可以在线阅读,也可以下载mobi、epub等格式的文件在亚马逊、苹果等厂商生产的移动设备上阅读。2012年2月,其Alexa全球排名已进入前5000位。“古腾堡计划”采用了分布式建设的模式,其图书大多由来自世界各地的众多志愿者进行加工。由于志愿者在能力、素质以及工作热情等方面存在着诸多差异,为保证古腾堡图书的质量,加强校对的精度显得日益重要。在这个背景下,2000年,CharlesFranks建立了“分布式校对”系统,以支持“古腾堡计划”图书的数字化文本建设。最初,这个“分布式校对”系统从属于“古腾堡计划”。2002年,它有了自己的官方网站。2006年,它成为单独的法人实体,但依然与“古腾堡计划”有着密切的联系,由这个系统产生的电子书,是“古腾堡计划”图书最重要的来源[1]。 2“古腾堡计划”电子图书制作流程 “古腾堡计划”的电子图书之所以受到广泛欢迎,是因为它既是免费的,又是高质量的。它的图书制作遵循着一个非常严格的流程:(1)使用在线的软件和数据库创建图书馆。(2)世界各地的内容提供者将图书扫描,并将扫描件上传到图书馆。“古腾堡计划”根据美国版权法对电子书进行版权验证,只有版权过期者才可以添加到计划的列表中。(3)参与校对的志愿者选择一本图书进行校对。(4)这时候,网站会显示给校对者一个网页,内容包括扫描文件和通过文字识别软件产生的文本文件,校对者通过两者的比对进行校对。这极大地减少了校对者的工作量。(5)除了修正文字识别软件所产生的文本中的错误,校对者还需标注原著中的粗体、斜体字以及脚注等内容。(6)校对是协作式的,来自世界各地的志愿者通过互联网可能对同一本书的不同页进行校对。校对者在完成了对某本图书一页的校对后,可以再申请新的校对页,也可以退出校对。有意思的是,“古腾堡计划”并不鼓励校对者一天校对太多的页数,他们的建议是“一天一页”。他们认为,每个人每天对校对工作贡献的绵薄之力,最终会形成生产数字图书的强大力量。2004年,“古腾堡计划”的管理者自豪地宣布:平均每天有300~400个志愿者参与校对工作,平均每天完成校对页数4000~7000个,这意味着每分钟完成校对4个图书页。实际上,2004年以后,志愿者数量和校对页数总量等数据每年都有相当大的增长[2]。(7)校对过的图书页会保存在网站的数据库中,等待下一轮的校对。“古腾堡计划”的校对会有2轮,以尽量避免错误的发生。(8)当所有的图书页都经过2轮校对后,“古腾堡计划”的处理软件会将其整合成一本完整的数字图书,并且再进行一次错误检查。由于一本书的校对很可能是由多人完成,因此这时的重点在于一致性的检查上。(9)通过检查后的图书会被归档,并上传到全球各地的镜像站点,向全世界提供免费阅读和下载[3]。可以看出,“古腾堡计划”的数字图书制作,奉行“质量优先”的原则。虽然它的图书数量并不太多,但涵盖了莎士比亚、列夫托尔斯泰、马克吐温等著名作家的经典作品,另外也包含了许多非文学类的名家名作,而且这些都是相对可靠的电子文本,为世界各地的读者进行阅读、欣赏和研究提供了极大的便利。 3分布式校对的几个关键环节 3.1分布式校对与集中化管理 “古腾堡计划”的图书校对和制作虽然是由各地的志愿者采用分布式的方法完成的,但其基础却是集中化管理。在版权认定、决定哪些图书可以进行扫描、校对与提交以及图书的整合、发布等方面,都不是由志愿者自由和随意地进行,而是由“古腾堡计划”的核心小组统一安排。“古腾堡计划”的管理者会在广泛搜罗图书的基础上对未加工的图书进行审查和鉴定。作为非赢利性组织,“古腾堡计划”准备加工图书的来源非常庞杂,很多图书来自图书拍卖会、图书馆的剔旧以及各类捐赠。志愿者会将这些图书的封面、封底和版权页扫描,送交“古腾堡计划”的版权小组进行审查。版权小组由熟悉知识产权领域法规的专家组成。只有通过审查的图书,才会被允许进行数字化加工。这一举措,有效地避免了可能出现的知识产权纠纷。一旦通过了版权审查,相应的纸质图书会被送交个别志愿者,他们将书脊拆散后扫描,在得到扫描图像的同时,用文字识别软件产生与图像文件对应的文本,然后将这些文件上传到服务器。这一工作过程也是相对集中的,仅由少数较为可靠的志愿者完成,这样可以保证扫描与文字识别的精度。上传到服务器的文件进入“分布式校对”系统,发布在互联网上。这时来自世界各地的众多志愿者就可以利用该系统进行分布式校对。在所有的工作环节中,项目管理员(ProjectManager)、后期制作员(PostProc

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档