搜索引擎基本原理及实现技术——索引.ppt

下载文档 降价啦

2
0
约5.28千字
约 38页
2016-01-05 发布于湖北
举报
版权申诉
保障服务

搜索引擎基本原理及实现技术——索引.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

索引更新完全重建策略（CompleteRe-Build）当新增文档达到一定数量，将新增文档和原先的老文档进行合并，然后利用前述章节提到的建立索引的方式，对所有文档重新建立索引。新索引建立完成后，老的索引被遗弃释放，之后对用户查询的响应完全由新的索引负责。 ?再合并策略（Re-Merge）有新增文档进入搜索系统时，搜索系统在内存维护临时倒排索引来记录其信息，当新增文档达到一定数量，或者指定大小的内存被消耗完，则把临时索引和老文档的倒排索引进行合并，以生成新的索引。原地更新策略（In-Place） ?原地更新策略试图改进“再合并策略”的缺点。就是说，在索引更新过程中，如果老索引的倒排列表没有变化，可以不需要读取这些信息，而只对那些倒排列表变化的单词进行处理。即使老索引的倒排列表发生变化，只在其末尾进行追加操作，而不需要读取原先的倒排列表并重写到磁盘另外一个位置? 在索引合并时，不生成新的索引文件，而是直接在原先老的索引文件里进行追加操作，将增量索引里单词的倒排列表项追加到老索引相应位置的末尾混合策略（Hybrid）将单词根据其不同性质进行分类，不同类别的单词，对其索引采取不同的索引更新策略。根据单词的倒排列表长度进行区分，将单词划分为 “长倒排列表单词”----原地更新策略 “短倒排列表单词”--- -再合并策略因为“原地更新策略” 策略能够节省磁盘读写次数。而 “短倒排列表单词”读写开销不算太大，所以利用“再合并策略”来处理，充分利用其顺序读写优势索引建立的过程 1 正向索引路径的输入正向索引路径的建立最好建立在文件中，因为它只是建立索引的中间过程，不需要存入数据中路径的格式： 1）相对路径 2）绝对路径 2 建立正向索引 1）分词（lucene分词工具） 3）关键词的提取（出现次数比较多的选为关键词） 4）词频的统计 5）正向索引文件的写入（词项：词频） 3 根据正向索引建立倒排索引存储形式是：词项：（文档名，词频），（文档名，词频）…… 注意：存储的过程中需要判断重复性搜索引擎基本原理及实现技术 ——索引技术网络爬虫辛辛苦苦的把网页爬回来之后…… 预处理系统主要工作信息抽取分词分类等处理工作生成正排发送到索引系统生成倒排索引。信息抽取去标签和去噪去标签构造 DOM 树。tinyHTML，htmlParser，Jsoup；去噪去掉与正文不相关的广告或者其他信息。如广告，评论，导航条，版权信息，友情链接等等。分词分词的目的是为了提取文件特征，文件特征即网页内容的结构化表现形式。分词方法基于字符串匹配的分词方法基于理解的分词方法基于统计的分词方法分词思想设计的原则 1、颗粒度越大越好：用于进行语义分析的文本分词，要求分词结果的颗粒度越大，即单词的字数越多，所能表示的含义越确切，如： “公安局长”可以分为“公安局长”、“公安局长”、“公安局长”都算对，但是要用于语义分析，则“公安局长”的分词结果最好（当然前提是所使用的词典中有这个词） 2、切分结果中非词典词越少越好，单字字典词数越少越好，这里的“非词典词”就是不包含在词典中的单字，而“单字字典词”指的是可以独立运用的单字，如“的”、“了”、“和”、“你”、“我”、“他”。例如：“技术和服务”，可以分为“技术和服务”以及“技术和服务”，但“务”字无法独立成词（即词典中没有），但“和”字可以单独成词（词典中要包含），因此“技术和服务”有1个非词典词，而“技术和服务”有0个非词典词，因此选用后者。 3、总体词数越少越好，在相同字数的情况下，总词数越少，说明语义单元越少，那么相对的单个语义单元的权重会越大，因此准确性会越高。基于字符串匹配的分词方法也叫做基于字典的分词方法，它是以字典为依据的。按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串，则匹配成功，即识别出一个词。又分为三种：正向最大匹配法（由左到右的方向）；逆向最大匹配法（由右到左的方向）；双向最大匹配法。最大匹配法最大匹配是指以词典为依据，取词典中最长单词为第一个次取字数量的扫描串，在词典中进行扫描。例如：词典中最长词为“中华人民共和国”共7个汉字，则最大匹配起始字数为7个汉字。然后逐字递减，在对应的词典中进行查找。下面以“我们在野生动物园玩”详细说明一下这几种匹配方法：正向最大匹配法 1、正向最大匹配法：正向即从前往后取词，从7-1，每次减一个字，直到词典命中或剩下1个单字。第1次：“我们在野生动物”，扫描7字词典，无第2次：“我们在野生动”，扫描6字词典，无。。。。第6次：“我们