第十章 hadoop seacher.doc

下载文档 降价啦

0
0
约2.62千字
约 10页
2017-07-08 发布于北京
举报
版权申诉
保障服务

第十章 hadoop seacher.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

工作方式自动搜集分布在广域网上的信息（网络爬虫），建立索引，提供检索服务搜索引擎是通过从互联网上提取的各个网站的信息来建立数据库，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户搜索引擎并不真J下的搜索互联网，它搜索的实际上是预先整理好的网页索引数据库。搜索引擎的基本原理是通过网络爬虫程序抓取互联网上的文档，对文档按各种策略进行分词，然后对切分得到的每个有检索意义的单词建立索引，定位并记录该词在文档中出现的频度和位置等信息；当用户输入检索关键字进行查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果按照某种顺序反馈给用户。从互联网上抓取网页、分析原始网页并建立索引数据库、在索引数据库中搜索并排序网络爬虫访问资源的过程，是对互联网上信息遍历的过程。网络爬虫利用http协议来读取web页面并沿着html页面中的超链接在互联网上面自动漫游，同时按照用户的要求自动访问WWW资源。网络爬虫在抓取网页的时候一般采用的两种策略：深度优先和广度优先索引器的主要功能是对抓取的网页信息建立索引库以供查询。索引的建立包括如下几个步骤：网页内容的提取与分析（基于分词，词的识别）文档索引排序在索引数据库中搜索并对结果排序搜索引擎的爬虫程序一般要定期重新访问所有网页，更新网页索引数据库，以反映出网页文字的更新情况，增加新的网页信息，去除死链接，并根据网页文字和链接关系的变化重新排序搜索引擎主要包括两方面的核心技术：一是如何建立和维护索引数据库，另一个是如何提供快速有效的提供搜索结果分词技术: 文档由被称作特征项的索引词组成，网页分析是将一个文档表示为特征项的过程. 在对中文网页进行分析之前，先要将网页中的句子切割成一个个的词的序列，这就是中文分词。中文自动分词算法可以分为三大类：基于分词词典的机械分词方法、基于统计的分词方法、基于理解的分词方法。根据匹配策略的不同，机械分词方法又有如下几种算法：正向最大匹配算法、逆向最大匹配算法、最少分词算法基于统计的分词方法是对语料中的字组频度进行统计，不需要切分词典，因此也称为无词典分词方法。常用的索引方式有很多种，如正排索引、倒排索引(inverted index)、后缀数组(suffix arrays)以及签名文档(signature files)等倒排索引是一种面向单词的索引机制。是最常用的一种全文索引模型。它的结构由两种元素组成：词汇表(vocabulary)和事件表(occurrence) 。词汇表是文本中所包含的所有不同单词的集合。对于词汇表中的每一个单词，在文本中出现的所有位置都存储在一个列表中，所有列表的集合就称为事件表。倒排表以字或词为关键字进行索引，由于每个字或词对应的文档数量在动态变化，所以倒排表的建立和维护都较为复杂，但是在查询的时候由于可以一次得到查询关键字所对应的所有文档，所以效率高于正排表。在英文系统中，基本的处理单位很自然地就是词(Word)，因为词是最小的语义单位，而且英文词之间有空格隔开，词的识别处理非常方便，所以英文倒排表多采用词表法倒排索引的组织策略。目前主要有基于关键词划分和基于文档划分的两种策略，它们也被称为构建全局索引和构建局部索引的策略 Map是把一组数据一对一的映射为另外的一组数据，其映射的规则由一个函数来指定。 Reduce是对一组数据进行归约，这个归约的规则由一个函数指定。 Map函数是用户自定义的，它处理输入的一组键一值对，产生一组同样用键-值对表示的中间结果集合。函数库将具有相同键的中间结果聚集在一起，传递给Reduce操作。 Reduce函数同样也是用户提供的，它处理中间键值I，以及这个中间键值相关的值集合。这个函数合并这些值，最后形成一个相对较小的值集合。通常一个单次Reduce执行会产生0个或者1个输出值。提供给Reduce函数的中间值是通过一个迭代器来提供的。这就让我们可以处理超过内存容量的值列表。 Map／Reduce过程原形： Map:(InitialKey,InitialValue)-[(InterKey,InterValue) Reduce:(InterKey,InterValueslterator)一[(InterKey，InterValue)] Lucene共有七个程序包构成，对于外部应用来说索引模块(index)和检索模块(search)是主要的外部应用入口。七个程序包分别是： org．apache．Lucene．search：检索入口，提供了根据索引进行检索的类。 org．apache．Lucene．index：索引入口，提供了用于访问与维护索引的类。 org．apache．Lucene．analysis：语言分析器，提供了将文本转化为可索引的词的类。 org