- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
小白学搜索(上):搜索引擎如何排列搜索结果?
搜索引擎,可以通过关键词使得人们在使用时更加的便利。但关键词是怎确定的呢?不同的用户是怎么在页面中找到他们需要的信息的?本文作者从一个实例出发,对搜索背后的故事进行了梳理阐述,与大家分享。
柳絮纷飞的四组团,一个金色的下午,小白打开电脑,鬼使神差地在百度搜索框里输入“杭亦白的公众号”这几个字。大约30毫秒以后,672个搜索结果展示在眼前。逐个往下翻看这些结果,三个疑惑逐渐涌上大脑:
我要找哪些网页,百度怎么知道的?
网页这么多,百度是根据什么规则排列它们的?
它返回的和我想要的,相关性如何?
搜索的数学本质——搜索词对应索引表的布尔运算
刚刚经受毕业论文洗礼的我们,可能对摘要最后附带的几个“关键词“还留有深刻的印象。不止是毕业论文,几乎所有的学术杂志都要求作者提供3~5个关键词。
关键词的历史背景是什么?原来,在半个多世纪以前,搜索引擎已经广泛运用于文献检索了。为了方便期刊的编辑、读者查找文献,搜索引擎开发者们巧妙地为文献围绕的核心词建立了索引,也就是传承至今的关键词。如果你搜的词出现在某篇文章的“关键词“坑里,搜索引擎就会迅速把这篇文章返回给你。
比如你搜“显微镜“,多半会看到光学领域里显微镜相关的文献,因为这些文献往往附带着“显微镜”这个关键词;同理,搜”浙江村“和”社区“这两个词,项飙的《跨越边界的社区》很可能会出现在在显著的位置。
“索引”这个概念的引入,使得搜索引擎真正具有了实时反馈结果的可能。
一开始,由于计算机速度和容量都十分有限,只能对最重要的3到5个主题词建立索引。现在好了,计算机的性能已经不再是制约因素,还有了成熟的分布式处理手段,对互联网上所有网页的所有词建立索引理论上存在可能。
如果真的这么搞,互联网上就存在一张巨大的索引表,所有词都能找到对应的网页。当你搜索一个词组,搜索引擎把这个词组当作键(key)放到表里,取出对应的网页作为值(value)返回,理论上就初步完成了一次搜索行为。
逻辑看起来非常简单,数学上又是怎么实现的呢?
原来,最简单的索引结构就是一长串二进制数,来表示关键词是否存在在每篇文献中。有多少篇文献,二进制数就有多少位,位上取0代表对应文献里不包含关键词,取1则相反。
比方说,假设互联网上只有16个网页,搜索引擎首先对这16个网页做一个排序(如有新增网页,堆在队尾,保证前方网页序号固定),然后对网页内的所有词,分别建16位的二进制数,这些词与对应的二进制数就构成了一张索引表。
对于我要搜索的“杭亦白的公众号”,搜索引擎首先把这句话根据语意做分词处理,分出“杭亦白”、“的”、“公众号”这三个词。
关键词“杭亦白”对应的二进制数是0001 0000 0010 0011,表示第四、第十一、第十五、第十六个网页上包含“杭亦白”这个词。对“的”和“公众号”做同样处理,就得了三个二进制数。
对以上3个二进制数做布尔AND运算,结果是0001 0000 0010 0010,表示第四、第十一、第十五个网页满足搜索要求,搜索引擎向搜索者展示的就是这3个网页。
原来,搜索的数学本质,就是搜索词对应索引表的布尔运算,搜索引擎返回布尔“与”运算结果为1的网页。
这里可以多提一句,布尔运算的元素只有1(TRUE,真)和0(FALSE,假);基本运算只有“与”(AND)、或(OR)、非(NOT),十分简单,却为数字电路奠定了理论(布尔元素真假对应着电路通断),也对数学产生深远影响:
“布尔代数对于数学的意义等同于量子力学对于物理学的意义,它们将我们对世界的认识从连续状态扩展为离散状态。在布尔代数的世界里,万物都是可以量子化的,从连续的变成一个个分离的,它们的运算“与、或、非”也就和传统的代数运算完全不同了“
——《数学之美》
在实际情况中,网页的数量不可能像上面假设的只有16个那么少,很可能是上百亿的量级,产生的词组索引表更是爆炸,需要将索引通过分布式的方式存储在不同的服务器上,接受查询时,查询分发到各个服务器上并行处理,结果送到主服务器上合并处理,向用户返回最后结果。
搜索返回网页如何排序——PageRank投票表决
通过上面的布尔运算,搜索引擎向我们返回了三个网页。那么问题来了,该按什么顺序排列这三个网页呢?
Google在1998年给出了答案:表决式PageRank。核心思路只有一句话:网页之间会以互相之间链接锚文本(Anchor Text)的形式投票,获得的票越多的网页,排名越靠前。
比方说我们百度”锚文本“,搜索结果里有一些蓝色部分的可跳转超链接,比如图上的“超链接”、“关键词”、“Anchor text”,这些部分就是指向其他网页的锚文本。
如果某个网页被其他网页指向地越多,可以认定这个网页人缘好,比较靠谱,可以放在前列。
当然,这么说也并不十分严谨。因
您可能关注的文档
最近下载
- 换热站建设标准.doc VIP
- 研究生2024版新中特课件第二章新时代新征程中国共产党的使命任务.pptx VIP
- 推进供热企业标准化体系建设思考(工商管理毕业论文).doc VIP
- 2025入党积极分子发展对象培训考试题库100题含答案(完整版).docx VIP
- 调味品生产自动化一体化项目环境影响报告表.pdf VIP
- 2024年安徽省高考生物试卷(含答案详解).pdf
- 一年级语文上册新教材第八单元解读.docx
- 2025年国企竞聘笔考试试题库目简答题及答案指导.docx VIP
- DB11∕T 808-2020 市政基础设施工程资料管理规程.docx
- 《小学数学作业分层设计——五年级上册第三单元”小数除法“》.pdf VIP
原创力文档


文档评论(0)