谷歌的图书扫描计划为何失败.docVIP

下载本文档

8
0
约1.17万字
约 9页
2017-06-29 发布于湖北
举报
版权申诉

谷歌的图书扫描计划为何失败.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

谷歌的图书扫描计划为何失败

谷歌的图书扫描计划为何失败 James Somers/文李静云/编译 2017-05-08 15:54 来源：澎湃新闻你离读到迄今为止出版过的所有书的电子版只有一步之遥。如果你想读的是那些还没出版的书，可能还是需要付一些钱，但是其他所有已经出版的书，都可能可以在每个地方图书馆里的阅读终端上免费阅读。这个电子书库的馆藏会比美国国会图书馆、哈佛大学、密歇根大学和欧洲任何一个国家的国家图书馆的馆藏都要大。在每个图书馆都即将会拥有的阅读终端上，你能搜索千万本的图书，并且阅读你能找到的图书的每一页。你可以高亮段落，做注释和分享。人们还能第一次自由地在所有已经印刷出来的图书中定位一个观点之后直接把这曾是一个即将实现的夙愿。牛津大学博德利图书馆的馆长理查德·欧文顿（Richard Ovenden）说，“千年以来一直有人在梦想一个世界级的图书馆，文艺复兴的时候，就有人在幻想我们可以把当时世界上所有已经印刷在纸上的知识全部储藏在一个房间或者一家机构里。”在2011年春天的时候，我们已经做到把世界上所有的书籍都储藏在一个能够放在桌面上的小小终端里。但是，在那一年的3月22日，美国纽约南区地方法院依据联邦民事诉讼规则的第23(e)(2)条款否定了这一项准备向世人开放这一个世纪以来出版的所有图书，并且在所有图书馆安装图书阅读终端的计划。当亚历山大图书馆惨遭火灾的时候，人们说这是“全世界的灾难”。而那一年，当我们这个时代最重要的人文计划被法院否决的时候，那些帮助阻止这一计划的学者、档案学家和图书馆员都松了一口气，因为他们觉得他们恰恰谷歌决定扫描世界上所有图书的秘密计划开始于2002年，该项目的名字叫做“海洋计划”（Project Ocean）。当时拉里·佩吉（Larry Page）和玛丽莎·梅尔（Marissa Mayer）正坐在办公室，手边放着一本三百页的书和一个节拍器。佩吉想知道如果要扫描一亿本书需要花多长时间，所以他就从他手边的这本开始试起。他和梅尔两个人用计时器来保证速度，然后花了40分钟时间把这本书从头到尾一页一页地翻了一遍。佩吉一直想实现图书的数字化。早在1996年，当Google还只是一个学生项目Google背后的设想就是要“发展技术，建立一个统一的世界数字图书馆。”当时的想法是，在未来图书都实现电子化的时候，人们就能够勾勒出每一本书的引用网络，看看哪本书被引用的频率最高，然后利用这些数据给图书馆的使用者提供更好的搜索结果。但是纸仍然是大多数书籍的载体。佩吉和他的研究伙伴谢尔盖·布林（Sergey Brin）一起利用万维网中的网页进行试验，继续充实他们根据引用量来判断受欢迎程度的点子。到2002年的时候，佩吉觉得重新关注书籍的时机40分钟”这个大致概念的时候，他回到了他的母校，在图书扫描领域领先世界的密歇根大学，想看看批量数字化技术发展到了什么程度。密歇根大学告诉佩吉，按照当时的速度，如果想把密歇根大学700万册的馆藏全部数字化，需要大概一千年。如果是现在的佩吉，可能还会稍微迟疑一下，但是当时的佩吉回答说，谷歌只需要六年左右。他给密歇根大学图书馆提议：图书馆将所有的书借给谷歌，谷歌来替对方完成全部的扫描。最后你能得到你的全部馆藏的电子版，而谷歌将获得海量的还不曾被人问津的数据资源。布林如此描早在2004年之前，谷歌就开始了扫描工作。之后，谷歌和密歇根大学、哈佛、斯坦福、牛津、纽约公共图书馆和许多其他图书馆系统都订立了合约，并且以超过佩吉预言的速度，在十年多一点的时间里扫描了大约2500万册图书。图书扫描工作花掉了谷歌大约4亿美元。这项工作不仅仅依靠技术，还依靠强大的物流支持。从周一到周五，装满图书的半挂卡车都会停在谷歌扫描中心的门口。负责扫描斯坦福图书Mountain View campus）。图书从卡车上卸下来之后会放在图书馆里常见的那种小推车里，然后被推给人工操作员。扫描中心大约有几十台扫描仪，一行一行地整齐排列，台与台之间间隔2米左右，操作员就坐在明亮的扫描仪前工作。这些扫描仪是谷歌定制的，它们与其说是扫描，还不如说是给书拍照。每台仪器一小时可以数字化1000页左右的图书。待扫描的书会被放在一个特别设计的自动支架上，支架可以适应不同的书脊，并且将图书固定。仪器上方有一排灯，还有价值至少1000美这个扫描系统很高效的原因是软件完成了大部分工作。在传统的图书扫描系统里，在每次拍照之前确保每一页都是放正、铺展的是拖慢扫描进度的主要原因，而在谷歌的扫描系统中，每页歪歪扭扭的图书的照片会经过一个“去皱算法”的处理，该算法利用光学雷达的数据，最终使得书中每行文字回到正常的、看起来横平竖直的高度。该项目的巅峰时期曾雇佣了大约50个全职工程师。他们负责研发能把图像转化为文字的光学识别软件，写