- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
然而,网页的出现仅仅是个开始。就在谷歌刚满三岁的2001年,在洛杉矶举行的一次业界集会上,其创始人拉里?佩奇和谢尔盖?布林进行了一场公开的演讲。两位创始人在这次讲话中解释说,尽管Google索引看起来足够庞大,其网页数量甚至达到了13亿之多,但除了网页自身附带的小部分信息外,这些数量惊人的网页并没有提供更多有价值的信息。佩奇说:“目前,人们仍旧只能存取互联网上业已存在的资料和信息。人们无法对图书馆里收藏的书籍资料进行存取,无法对杂志内容进行存取,无法对报纸内容进行存取,即使是过期的报纸也做不到。同样地,人们对于已经播放的电视节目也无法存取。但是这一切都将被改变。”早在佩奇还是斯坦福大学的一名研究生时,他就参与过作为该大学数字化图书馆项目一部分的某些实验项目,而将传统的纸质媒体数字化的设想也正是开始于那段科研经历。但是直到2001年,谷歌对于是否应该做点什么具体工作来加速传统媒体的数字化仍旧没有明确的表态。图书馆、出版社以及电视台这类机构似乎有能力完成数字化的日常零碎工作并且能够将文件服务器上向公众开放的信息进行整理,而谷歌的“爬行器”则像它之前将大量网页进行编录索引那样,负责将这些传统传媒机构整理出来的信息编入索引。然而,一年后的2002年,佩奇和布林以及他们的团队决定不再犹豫,要凭借自己的力量开始对最完整记录人类对世界的理解的信息类型——纸质书籍进行数字化的可行性进行审查。众所周知,Google算法在网页之间的优选认定上比较擅长,但是它不能够将网页上出现的最有价值信息像传统的纸质书籍那样向其用户提供高质量的选择建议。很显然,与谷歌工程师熟悉的将网页编入索引和对网页进行排名运算的工作不同,书籍数字化绝对是一个全新的挑战性课题。将书本中的文字转换成由0和1组成字节的数字模式所需要的不只是强悍的计算机知识,是否具备其他领域的专业知识似乎显得更为重要。比如用于设计图像设备的机械工程学知识,用来游说拥有大量图书资源的大学图书馆参与合作的公关学知识,以及怎样将要扫描的书籍毫发无损地来回运送的后勤保障知识,甚至还包括要确保项目进行中不会触犯版权法的法律知识。此外,要完成这项工作还要有一个必不可少的条件,那就是强大的资金保证。因为Google决定从事的书籍数字化工程不只是针对某家大型图书馆的藏书,也不只是针对那些有价值的学术性书籍、那些普通的大众书籍甚至是那些饱受争议的书籍等,而是要将上述的所有书籍——迄今为止在全球书目数据库(WorldCat)里列出并被收藏在全球25000家图书馆内的3200万本书籍——中的每一册都进行数字化。玛丽莎?梅耶尔(Marissa Mayer)曾经把谷歌的图书搜索项目(Google Book Search)称之为“我们的登月”计划。这种比喻至少在某些方面看来是恰当的。纸质书籍的数字化一直以来就是很多人的梦想。但这个梦想往往被认为过于雄心勃勃而在短期内很难实现。从1961年约翰?肯尼迪总统宣布著名的“登月”计划开始,到1969年人类安全地在月球上着陆,美国用了10年时间完成自己的这一梦想。与此相似的是,谷歌也打算用10年的时间来完成它的“登月”——Google 图书搜索。(2007年9月,谷歌又为它的另一项“登月”计划拨款,那就是投资3000万美元开发Google Lunar X Prize。)事实上,在图书数字化计划尚未正式启动的前一年,谷歌已经悄悄地迈出了它实现数字化梦想的第一步——开始在线下对一些由商户提供的目录进行浏览。之后这些目录被放在网上并且可以在一个从主搜索站点分离出来的Google站点上进行搜索。由于是试验性质,所以当时谷歌并没有尝试进行尽可能全面的目录搜集,目录的提供完全是商户的自愿行为,而且被选中参与这项测试项目的商户也不是很多。因此这个目录测试版本并没有在海量扫描方面为谷歌提供太多的经验。2002年,当佩奇和布林开始不断地谈论运用Google浏览书籍的时候,他们两个曾经做过一个实验来测试浏览一本书究竟要花多少时间。这个实验后来在很多场合都被反复提到过,他们按照节拍器发出的节奏将一本300页的书逐页地翻过,然后得出了一个二人认为虽然简单但却足够有用的数据:扫描300页的书需要花费的时间是40分钟。通过这个实验,他们至少有理由认为他们能够对扫描成百上千万册的书所需要的费用进行大致的测算,甚至能够得出一个在想像力范围内的具体费用。尽管谷歌一直对这个小实验津津乐道,并且声称正是这次测试的结果引发了公司的传奇性发展,但这一说法是否可信还有待商榷。因为在当时的情形下,谷歌是不可能向外界透露任何有关如何获取书页影像的细节的。不过一个不争的事实是,通过这次试验让两位创始人意识到利用扫描仪对装订好的书本进行人工逐页扫描耗费的时间巨大,而使用数码相机则无疑是个更省时省力的办法——只需
原创力文档


文档评论(0)