- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
工作方式 自动搜集分布在广域网上的信息(网络爬虫),建立索引,提供检索服务
搜索引擎是通过从互联网上提取的各个网站的信息来建立数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户
搜索引擎并不真J下的搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。
搜索引擎的基本原理是通过网络爬虫程序抓取互联网上的文档,对文档按各种策略进行分词,然后对切分得到的每个有检索意义的单词建立索引,定位并记录该词在文档中出现的频度和位置等信息;当用户输入检索关键字进行查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果按照某种顺序反馈给用户。
从互联网上抓取网页、分析原始网页并建立索引数据库、在索引数据库中搜索并排序
网络爬虫访问资源的过程,是对互联网上信息遍历的过程。网络爬虫利用http协议来读取web页面并沿着html页面中的超链接在互联网上面自动漫游,同时按照用户的要求自动访问WWW资源。
网络爬虫在抓取网页的时候一般采用的两种策略:深度优先和广度优先
索引器的主要功能是对抓取的网页信息建立索引库以供查询。
索引的建立包括如下几个步骤:
网页内容的提取与分析(基于分词,词的识别)
文档索引
排序
在索引数据库中搜索并对结果排序
搜索引擎的爬虫程序一般要定期重新访问所有网页,更新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排序
搜索引擎主要包括两方面的核心技术:一是如何建立和维护索引数据库,另一个是如何提供快速有效的提供搜索结果
分词技术: 文档由被称作特征项的索引词组成,网页分析是将一个文档表示为特征项的过程. 在对中文网页进行分析之前,先要将网页中的句子切割成一个个的词的序列,这就是中文分词。
中文自动分词算法可以分为三大类:基于分词词典的机械分词方法、基于统计的分词方法、基于理解的分词方法。
根据匹配策略的不同,机械分词方法又有如下几种算法:正向最大匹配算法、逆向最
大匹配算法、最少分词算法
基于统计的分词方法是对语料中的字组频度进行统计,不需要切分词典,因此也称为无词典分词方法。
常用的索引方式有很多种,如正排索引、倒排索引(inverted index)、后缀数组(suffix arrays)以及签名文档(signature files)等
倒排索引是一种面向单词的索引机制。是最常用的一种全文索引模型。它的结构由两种元素组成:词汇表(vocabulary)和事件表(occurrence) 。词汇表是文本中所包含的所有不同单词的集合。对于词汇表中的每一个单词,在文本中出现的所有位置都存储在一个列表中,所有列表的集合就称为事件表。倒排表以字或词为关键字进行索引,由于每个字或词对应的文档数量在动态变化,所以倒排表的建立和维护都较为复杂,但是在查询的时候由于可以一次得到查询关键字所对应的所有文档,所以效率高于正排表。
在英文系统中,基本的处理单位很自然地就是词(Word),因为词是最小的语义单位,而且英文词之间有空格隔开,词的识别处理非常方便,所以英文倒排表多采用词表法
倒排索引的组织策略。目前主要有基于关键词划分和基于文档划分的两种策略,它们也被称为构建全局索引和构建局部索引的策略
Map是把一组数据一对一的映射为另外的一组数据,其映射的规则由一个函数来指定。
Reduce是对一组数据进行归约,这个归约的规则由一个函数指定。
Map函数是用户自定义的,它处理输入的一组键一值对,产生一组同样用键-值对表示的中间结果集合。函数库将具有相同键的中间结果聚集在一起,传递给Reduce操作。
Reduce函数同样也是用户提供的,它处理中间键值I,以及这个中间键值相关的值集合。这个函数合并这些值,最后形成一个相对较小的值集合。通常一个单次Reduce执行会产生0个或者1个输出值。提供给Reduce函数的中间值是通过一个迭代器来提供的。这就让我们可以处理超过内存容量的值列表。
Map/Reduce过程原形:
Map:(InitialKey,InitialValue)-[(InterKey,InterValue)
Reduce:(InterKey,InterValueslterator)一[(InterKey,InterValue)]
Lucene共有七个程序包构成,对于外部应用来说索引模块(index)和检索模块(search)是主要的外部应用入口。七个程序包分别是:
org.apache.Lucene.search:检索入口,提供了根据索引进行检索的类。
org.apache.Lucene.index:索引入口,提供了用于访问与维护索引的类。
org.apache.Lucene.analysis:语言分析器,提供了将文本转化为可索引的词的类。
org
您可能关注的文档
- 主板点不亮维修实例幻灯片.doc
- 液晶显示器故障实例之电源指南.doc
- 主板上电流程幻灯片.docx
- 博艺通讯常见问题解决方法摘要.doc
- 启动设备无法引导系统解决方法.doc
- 恢复操作系统或整个服务器课件.doc
- 第三章 电脑主板检测卡代码大全.doc
- SQL日期与时间函数.doc
- 细菌性食物中毒概论.doc
- 中兴SDH认证考试题库(三)幻灯片.doc
- 新高考生物二轮复习讲练测第6讲 遗传的分子基础(检测) (原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第3讲 酶和ATP(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第9讲 神经调节与体液调节(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第8讲 生物的变异、育种与进化(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(检测)(原卷版).docx
文档评论(0)