- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎原理.
【1】搜索引擎概述
过去的15年间,互联网信息急剧膨胀,靠人工的方式去筛选获取有用信息不再可能,因此搜索引擎应运而生。根据其发展,可以将其划为四个时代。
分类目录。yahoo是这个时期的代表,采用纯人工方式收集,质量较高,但效率低。
文本检索。采用了经典的信息检索模型,主要查询用户关键词语网页内容相似度,收录容量增加,但质量不是很好。如,早期的AltaVista.
链接分析。典型:Google的PageRank,极大扩充了网页内容,质量有提高,随之而来各种作弊方法。
用户为中心?现在的大部分搜索引擎对相同查询返回相同的结果,但是不同用户可能关注不一样,未来也许更多考虑用户的差异性。
说到发展,不得不提搜索引擎的三个主要目标,无论它往何方发展,以下三个目标总是一个很好的评估标准:
更全:如何把更多相关的网页收录?
更快:如何从数以亿计的网页中迅速返回结果?
更准:如何把用户最感兴趣的结果呈现?
这一部分主要从以下四个部分来讲述搜索引擎的基础技术,这四个部分也是搜索引擎的重要环节。
网络爬虫
建立索引
内容检索
链接分析
网络爬虫是搜索引擎的下载系统,它的作用是内容的获取,手段就是在万维网中通过链接不断爬取收集各类网页。但是互联网的页面浩如烟海,而且每天不断有新的内容产生,根据爬取目标和范围,可以将爬虫简单分为以下几类:?
批量性爬虫:明确的抓取目标和范围,达到即停止
增量型爬虫:应对网页不断更新的状态,爬虫需要及时反应。通用商业引擎一般都是这类
垂直型爬虫:只针对某个特定领域的爬虫,根据主题过滤。
爬虫在爬取网页的时候,应该怎样确定下一步的目标呢?主要有以下策略:
宽度优先:最简单的方式,即将某个页面中的链接依次加入待爬取队列
局部PageRank:PageRank是一种网页重要性指标,这种方式根据一定时期内的局部PageRank值决定下一步爬取目标
OPIC:当下载当前网页后,将其重要性平均分给包含的链接,每次选取最重要的页面,不用迭代计算,速度较快
大站优先:思想很简单,以网站为单位衡量页面重要性。
接下来,简要介绍一下搜索引擎中的一个重要问题:暗网抓取。所谓暗网,是指常规方式很难爬到的网页,而在网络中,这样的网是大量存在的。有的网页没有外链,有的主要内容存储于数据库中(如携程网),没有链接指向这些记录。暗网挖掘是商业搜索引擎的一大研究重点,Google是这样,百度的“阿拉丁”计划也在于此。
对于搜索引擎,索更是其中最重要的核心技术之一,面对海量的网页内容,如何快速找到包含用户查询词的所有网页?倒排索引在其中扮演了关键的角色。
对于一个网页,我们把它看做一个文档,其中的内容由一个个单词组成。为了对于用户的搜索词快速给出文档结果,我们要建立一个单词-文档的存储结构。倒排索引是实现单词—文档矩阵的一种具体存储形式。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:单词词典和倒排文件。?
单词词典主要是两种存储方式:哈希加链接和树形结构。
索引建立方法:
(1)两遍文档遍历
在第一遍扫描文档集合时,该方法并没有立即开始建立索引,而是收集一些全局的统计信息。比如文档集合包含的文档个数N,文档集合内所包含的不同单词个数M,每个单词在多少个文档中出现过的信息DF。在获得了上述3 类信息后,就可以知道最终索引的大小,于是在内存中分配足够大的空间,用来存储倒排索引内容。在第二遍扫描的时候,开始真正建立每个单词的倒排列表信息,即对某个单词来说,获得包含这个单词的每个文档的文档ID,以及这个单词在文档中的出现次数TF
(2)排序法
排序法对此做出了改进,该方法在建立索引的过程中,始终在内存中分配固定大小的空间,用来存放词典信息和索引的中间结果,当分配的空间被消耗光的时候,把中间结果写入磁盘,清空内存里中间结果所占空间,以用做下一轮存放索引中间结果的存储区。这种方法由于只需要固定大小的内存,所以可以对任意大小的文档集合建立索引。
(3)归并法
在分配的内存定额被消耗光时,排序法只是将中间结果写入磁盘,而词典信息一直在内存中进行维护,随着处理的文档越来越多,词典里包含的词典项越来越多,所以占用内存越来越大,导致后期中间结果可用内存越来越少。归并法对此做出了改进,即每次将内存中数据写入磁盘时,包括词典在内的所有中间结果信息都被写入磁盘,这样内存所有内容都可以被清空,后续建立索引可以使用全部的定额内存。
索引更新策略:
完全重建
再合并策略
原地更新策略
混合策略
内容检索模型是搜索引擎排序的理论基础,用来计算网页与查询的相关性。
常用的检索模型
布尔模型
向量空间模型
概率模型
语言模型
机器学习排序
检索系统评价指标
精确率:搜索结果中相关文档的比例 A/(A+B)
召回率:结果中相关文档占所有
文档评论(0)