搜索引擎原理..doc

下载文档

8
0
约5千字
约 8页
2017-01-05 发布于重庆
举报
版权申诉
保障服务

搜索引擎原理..doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

搜索引擎原理.

【1】搜索引擎概述过去的15年间，互联网信息急剧膨胀，靠人工的方式去筛选获取有用信息不再可能，因此搜索引擎应运而生。根据其发展，可以将其划为四个时代。分类目录。yahoo是这个时期的代表，采用纯人工方式收集，质量较高，但效率低。文本检索。采用了经典的信息检索模型，主要查询用户关键词语网页内容相似度，收录容量增加，但质量不是很好。如，早期的AltaVista. 链接分析。典型：Google的PageRank，极大扩充了网页内容，质量有提高，随之而来各种作弊方法。用户为中心？现在的大部分搜索引擎对相同查询返回相同的结果，但是不同用户可能关注不一样，未来也许更多考虑用户的差异性。说到发展，不得不提搜索引擎的三个主要目标，无论它往何方发展，以下三个目标总是一个很好的评估标准：更全：如何把更多相关的网页收录？更快：如何从数以亿计的网页中迅速返回结果？更准：如何把用户最感兴趣的结果呈现？这一部分主要从以下四个部分来讲述搜索引擎的基础技术，这四个部分也是搜索引擎的重要环节。网络爬虫建立索引内容检索链接分析网络爬虫是搜索引擎的下载系统，它的作用是内容的获取，手段就是在万维网中通过链接不断爬取收集各类网页。但是互联网的页面浩如烟海，而且每天不断有新的内容产生，根据爬取目标和范围，可以将爬虫简单分为以下几类：? 批量性爬虫：明确的抓取目标和范围，达到即停止增量型爬虫：应对网页不断更新的状态，爬虫需要及时反应。通用商业引擎一般都是这类垂直型爬虫：只针对某个特定领域的爬虫，根据主题过滤。爬虫在爬取网页的时候，应该怎样确定下一步的目标呢？主要有以下策略：宽度优先：最简单的方式，即将某个页面中的链接依次加入待爬取队列局部PageRank：PageRank是一种网页重要性指标，这种方式根据一定时期内的局部PageRank值决定下一步爬取目标 OPIC：当下载当前网页后，将其重要性平均分给包含的链接，每次选取最重要的页面，不用迭代计算，速度较快大站优先：思想很简单，以网站为单位衡量页面重要性。接下来，简要介绍一下搜索引擎中的一个重要问题：暗网抓取。所谓暗网，是指常规方式很难爬到的网页，而在网络中，这样的网是大量存在的。有的网页没有外链，有的主要内容存储于数据库中(如携程网)，没有链接指向这些记录。暗网挖掘是商业搜索引擎的一大研究重点，Google是这样，百度的“阿拉丁”计划也在于此。对于搜索引擎，索更是其中最重要的核心技术之一，面对海量的网页内容，如何快速找到包含用户查询词的所有网页？倒排索引在其中扮演了关键的角色。对于一个网页，我们把它看做一个文档，其中的内容由一个个单词组成。为了对于用户的搜索词快速给出文档结果，我们要建立一个单词-文档的存储结构。倒排索引是实现单词—文档矩阵的一种具体存储形式。通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成：单词词典和倒排文件。? 单词词典主要是两种存储方式：哈希加链接和树形结构。索引建立方法：（1）两遍文档遍历　　在第一遍扫描文档集合时，该方法并没有立即开始建立索引，而是收集一些全局的统计信息。比如文档集合包含的文档个数N，文档集合内所包含的不同单词个数M，每个单词在多少个文档中出现过的信息DF。在获得了上述3 类信息后，就可以知道最终索引的大小，于是在内存中分配足够大的空间，用来存储倒排索引内容。在第二遍扫描的时候，开始真正建立每个单词的倒排列表信息，即对某个单词来说，获得包含这个单词的每个文档的文档ID，以及这个单词在文档中的出现次数TF （2）排序法　　排序法对此做出了改进，该方法在建立索引的过程中，始终在内存中分配固定大小的空间，用来存放词典信息和索引的中间结果，当分配的空间被消耗光的时候，把中间结果写入磁盘，清空内存里中间结果所占空间，以用做下一轮存放索引中间结果的存储区。这种方法由于只需要固定大小的内存，所以可以对任意大小的文档集合建立索引。（3）归并法　　在分配的内存定额被消耗光时，排序法只是将中间结果写入磁盘，而词典信息一直在内存中进行维护，随着处理的文档越来越多，词典里包含的词典项越来越多，所以占用内存越来越大，导致后期中间结果可用内存越来越少。归并法对此做出了改进，即每次将内存中数据写入磁盘时，包括词典在内的所有中间结果信息都被写入磁盘，这样内存所有内容都可以被清空，后续建立索引可以使用全部的定额内存。索引更新策略：完全重建再合并策略原地更新策略混合策略内容检索模型是搜索引擎排序的理论基础，用来计算网页与查询的相关性。常用的检索模型布尔模型向量空间模型概率模型语言模型机器学习排序检索系统评价指标精确率：搜索结果中相关文档的比例 A/(A+B) 召回率：结果中相关文档占所有