谷歌背后的数学.PDFVIP

  • 35
  • 0
  • 约8.58千字
  • 约 4页
  • 2019-03-02 发布于天津
  • 举报
谷歌背后的数学

athematics Stories 数 学 经 纬 谷歌背后的数学 卢 昌海 在如今这个互联网时代,有一家家喻户晓的公司,它自 通常不超过几十个,图书馆里的同名图书和商店里的同种商 1998 年问世以来,在极短的时间内就声誉鹊起,不仅超越了 品通常也不超过几十种。 所有竞争对手,而且彻底改观了整个互联网的生态。这家公 但互联网的鲜明特点却是以上三条无一满足。事实上, 司就是当今互联网上的第一搜索引擎:谷歌(Google) 。 即便在谷歌问世之前,互联网上的网页总数就已超过了诸如 在这样一家显赫的公司背后,自然有许许多多商战故 图书馆藏书数量之类传统搜索对象的数目。而且这还只是 事,也有许许多多成功因素。但与普通商战故事不同的是, 冰山一角,因为与搜索图书时单纯的书名搜索不同,互联 在谷歌的成功背后起着最关键作用的却是一个数学因素。 网上的搜索往往是对网页内容的直接搜索,这相当于将图书 本文要谈的就是这个数学因素。 内的每一个字都变成了搜索对象,由此导致的数量才是真 谷歌作为一个搜索引擎,它的核心功能顾名思义,就是 正惊人的,它不仅直接破坏了上述第一条,而且连带破坏了 网页搜索。说到搜索,我们都不陌生,因为那是凡地球人都 二、三两条。在互联网发展的早期,象Yahoo 那样的门户 会的技能。我们在字典里查个生字,在图书馆里找本图书, 网站曾试图为网页建立分类系统,但随着网页数量的激增, 甚至在商店里寻一种商品等,都是搜索。如果我们稍稍推究 这种做法很快就 “挂一漏万”了。而搜索结果的重复度更 一下的话,就会发现那些搜索之所以可能,并且人人都会, 是以快得不能再快的速度走向失控。这其实是可以预料的, 在很大程度上得益于以下三条: 因为几乎所有网页都离不开几千个常用词,因此除非搜索 1. 搜索对象的数量较小—— 比如一本字典收录的字 生僻词,否则出现几十万、几百万、甚至几千万条搜索结 通常只有一两万个,一家图书馆收录的不重复图书通常不 果都是不足为奇的。 超过几十万种,一家商店的商品通常不超过几万种等。 互联网的这些“不良特点”给搜索引擎的设计带来了极 2. 搜索对象具有良好的分类或排序—— 比如字典里 大的挑战。而在这些挑战之中,相对来说,对一、二两条的 的字按拼音排序,图书馆里的图书按主题分类,商店里的 破坏是比较容易解决的,因为那主要是对搜索引擎的存储空 商品按品种或用途分类等。 间和计算能力提出了较高要求,只要有足够多的钱来买“装 3. 搜索结果的重复度较低—— 比如字典里的同音字 备”,这些还算是容易解决的。套用电视连续剧 《蜗居》中 2 1 数学文化/第 卷第 期 69 athematics Stories 数 学 经 纬 某贪官的台词来说,“能用钱解决的问题就不是大问题”。 排序就越靠前。不仅如此,佩奇和布林还进一步提出,一个 但对第三条的破坏却要了命了,因为无论搜索引擎的硬件如 网页越是被排序靠前的网页所链接,它的排序就也应该越靠 何强大,速度如何快捷,要是搜索结果有几百万条,那么任 前。这一条的意义也是不言而喻的,就好比一篇论文被诺贝 何用户想从其中“海选”出自己真正想要的东西都是几乎不 尔奖得主所引用,显然要比被普通研究者所引用更说明其价 可能的。这一点对早期搜索引擎来说可谓是致命伤,而且它 值。依照这个思路,网页排序问题就跟整个互联网的链接结 不是用钱就能解决的问题。 构产生了关系,正是这一关系使它成为了一个不折不扣的数 这致命伤该如何治疗呢?药方其

文档评论(0)

1亿VIP精品文档

相关文档