搜索引擎基本原理及实现技术——索引.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎基本原理及实现技术——索引.ppt

索引更新 完全重建策略(CompleteRe-Build) 当新增文档达到一定数量,将新增文档和原先的老文档进行合并,然后利用前述章节提到的建立索引的方式,对所有文档重新建立索引。新索引建立完成后,老的索引被遗弃释放,之后对用户查询的响应完全由新的索引负责。 ?再合并策略(Re-Merge) 有新增文档进入搜索系统时,搜索系统在内存维护临时倒排索引来记录其信息,当新增文档达到一定数量,或者指定大小的内存被消耗完,则把临时索引和老文档的倒排索引进行合并,以生成新的索引。 原地更新策略(In-Place) ?原地更新策略试图改进“再合并策略”的缺点。就是说,在索引更新过程中,如果老索引的倒排列表没有变化,可以不需要读取这些信息,而只对那些倒排列表变化的单词进行处理。即使老索引的倒排列表发生变化,只在其末尾进行追加操作,而不需要读取原先的倒排列表并重写到磁盘另外一个位置? 在索引合并时,不生成新的索引文件,而是直接在原先老的索引文件里进行追加操作,将增量索引里单词的倒排列表项追加到老索引相应位置的末尾 混合策略(Hybrid) 将单词根据其不同性质进行分类,不同类别的单词,对其索引采取不同的索引更新策略。 根据单词的倒排列表长度进行区分,将单词划分为 “长倒排列表单词”----原地更新策略 “短倒排列表单词”--- -再合并策略 因为“原地更新策略” 策略能够节省磁盘读写次数。而 “短倒排列表单词”读写开销不算太大,所以利用“再合并策略”来处理,充分利用其顺序读写优势 索引建立的过程 1 正向索引路径的输入 正向索引路径的建立最好建立在文件中,因为它只是建立索引的中间过程,不需要存入数据中 路径的格式: 1)相对路径 2)绝对路径 2 建立正向索引 1)分词(lucene分词工具) 3)关键词的提取(出现次数比较多的选为关 键词) 4)词频的统计 5)正向索引文件的写入(词项:词频) 3 根据正向索引建立倒排索引 存储形式是: 词项:(文档名,词频),(文档名,词频)…… 注意:存储的过程中需要判断重复性 搜索引擎基本原理及实现技术 ——索引技术 网络爬虫辛辛苦苦的把网页爬回来之后…… 预处理系统 主要工作 信息抽取 分词 分类等处理工作 生成正排发送 到索引系统生成倒排索引。 信息抽取 去标签和去噪 去标签 构造 DOM 树。tinyHTML,htmlParser,Jsoup; 去噪 去掉与正文不相关的广告或者其他信息。如广告,评论,导航条,版权信息,友情链接等等。 分词 分词的目的是为了提取文件特征,文件特征即网页内容的结构化表现形式。 分词方法 基于字符串匹配的分词方法 基于理解的分词方法 基于统计的分词方法 分词思想设计的原则 1、颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如: “公安局长”可以分为“公安 局长”、“公安局 长”、“公安局长”都算对,但是要用于语义分析,则“公安局长”的分词结果最好(当然前提是所使用的词典中有这个词) 2、切分结果中非词典词越少越好,单字字典词数越少越好,这里的“非词典词”就是不包含在词典中的单字,而“单字字典词”指的是可以独立运用的单字,如“的”、“了”、“和”、“你”、“我”、“他”。例如:“技术和服务”,可以分为“技术 和服 务”以及“技术 和 服务”,但“务”字无法独立成词(即词典中没有),但“和”字可以单独成词(词典中要包含),因此“技术 和服 务”有1个非词典词,而“技术 和 服务”有0个非词典词,因此选用后者。 3、总体词数越少越好,在相同字数的情况下,总词数越少,说明语义单元越少,那么相对的单个语义单元的权重会越大,因此准确性会越高。 基于字符串匹配的分词方法 也叫做基于字典的分词方法,它是以字典为依据的。按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功,即识别出一个词。 又分为三种: 正向最大匹配法(由左到右的方向); 逆向最大匹配法(由右到左的方向); 双向最大匹配法。 最大匹配法 最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描。例如:词典中最长词为“中华人民共和国”共7个汉字,则最大匹配起始字数为7个汉字。然后逐字递减,在对应的词典中进行查找。 下面以“我们在野生动物园玩”详细说明一下这几种匹配方法: 正向最大匹配法 1、正向最大匹配法: 正向即从前往后取词,从7-1,每次减一个字,直到词典命中或剩下1个单字。 第1次:“我们在野生动物”,扫描7字词典,无 第2次:“我们在野生动”,扫描6字词典,无 。。。。 第6次:“我们

文档评论(0)

此项为空 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档