谷歌背后的数学.PDFVIP

下载本文档

35
0
约8.58千字
约 4页
2019-03-02 发布于天津
举报

谷歌背后的数学.PDF

谷歌背后的数学

athematics Stories 数学经纬谷歌背后的数学卢昌海在如今这个互联网时代，有一家家喻户晓的公司，它自通常不超过几十个，图书馆里的同名图书和商店里的同种商 1998 年问世以来，在极短的时间内就声誉鹊起，不仅超越了品通常也不超过几十种。所有竞争对手，而且彻底改观了整个互联网的生态。这家公但互联网的鲜明特点却是以上三条无一满足。事实上，司就是当今互联网上的第一搜索引擎：谷歌(Google) 。即便在谷歌问世之前，互联网上的网页总数就已超过了诸如在这样一家显赫的公司背后，自然有许许多多商战故图书馆藏书数量之类传统搜索对象的数目。而且这还只是事，也有许许多多成功因素。但与普通商战故事不同的是，冰山一角，因为与搜索图书时单纯的书名搜索不同，互联在谷歌的成功背后起着最关键作用的却是一个数学因素。网上的搜索往往是对网页内容的直接搜索，这相当于将图书本文要谈的就是这个数学因素。内的每一个字都变成了搜索对象，由此导致的数量才是真谷歌作为一个搜索引擎，它的核心功能顾名思义，就是正惊人的，它不仅直接破坏了上述第一条，而且连带破坏了网页搜索。说到搜索，我们都不陌生，因为那是凡地球人都二、三两条。在互联网发展的早期，象Yahoo 那样的门户会的技能。我们在字典里查个生字，在图书馆里找本图书，网站曾试图为网页建立分类系统，但随着网页数量的激增，甚至在商店里寻一种商品等，都是搜索。如果我们稍稍推究这种做法很快就 “挂一漏万”了。而搜索结果的重复度更一下的话，就会发现那些搜索之所以可能，并且人人都会，是以快得不能再快的速度走向失控。这其实是可以预料的，在很大程度上得益于以下三条：因为几乎所有网页都离不开几千个常用词，因此除非搜索 1. 搜索对象的数量较小—— 比如一本字典收录的字生僻词，否则出现几十万、几百万、甚至几千万条搜索结通常只有一两万个，一家图书馆收录的不重复图书通常不果都是不足为奇的。超过几十万种，一家商店的商品通常不超过几万种等。互联网的这些“不良特点”给搜索引擎的设计带来了极 2. 搜索对象具有良好的分类或排序—— 比如字典里大的挑战。而在这些挑战之中，相对来说，对一、二两条的的字按拼音排序，图书馆里的图书按主题分类，商店里的破坏是比较容易解决的，因为那主要是对搜索引擎的存储空商品按品种或用途分类等。间和计算能力提出了较高要求，只要有足够多的钱来买“装 3. 搜索结果的重复度较低—— 比如字典里的同音字备”，这些还算是容易解决的。套用电视连续剧《蜗居》中 2 1 数学文化/第卷第期 69 athematics Stories 数学经纬某贪官的台词来说，“能用钱解决的问题就不是大问题”。排序就越靠前。不仅如此，佩奇和布林还进一步提出，一个但对第三条的破坏却要了命了，因为无论搜索引擎的硬件如网页越是被排序靠前的网页所链接，它的排序就也应该越靠何强大，速度如何快捷，要是搜索结果有几百万条，那么任前。这一条的意义也是不言而喻的，就好比一篇论文被诺贝何用户想从其中“海选”出自己真正想要的东西都是几乎不尔奖得主所引用，显然要比被普通研究者所引用更说明其价可能的。这一点对早期搜索引擎来说可谓是致命伤，而且它值。依照这个思路，网页排序问题就跟整个互联网的链接结不是用钱就能解决的问题。构产生了关系，正是这一关系使它成为了一个不折不扣的数这致命伤该如何治疗呢？药方其

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

谷歌背后的数学.PDFVIP