搜索引擎基本原理及实现技术索引.ppt

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎基本原理及实现技术索引 第1页,共37页。 网络爬虫辛辛苦苦的把网页爬回来之后…… 第2页,共37页。 预处理系统 主要工作 信息抽取 分词 分类等处理工作 生成正排发送 到索引系统生成倒排索引。 第3页,共37页。 信息抽取 去标签和去噪 去标签 构造 DOM 树。tinyHTML,htmlParser,Jsoup; 去噪 去掉与正文不相关的广告或者其他信息。如广告,评论,导航条,版权信息,友情链接等等。 第4页,共37页。 分词 分词的目的是为了提取文件特征,文件特征即网页内容的结构化表现形式。 分词方法 基于字符串匹配的分词方法 基于理解的分词方法 基于统计的分词方法 第5页,共37页。 分词思想设计的原则 1、颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如: “公安局长”可以分为“公安 局长”、“公安局 长”、“公安局长”都算对,但是要用于语义分析,则“公安局长”的分词结果最好(当然前提是所使用的词典中有这个词) 2、切分结果中非词典词越少越好,单字字典词数越少越好,这里的“非词典词”就是不包含在词典中的单字,而“单字字典词”指的是可以独立运用的单字,如“的”、“了”、“和”、“你”、“我”、“他”。例如:“技术和服务”,可以分为“技术 和服 务”以及“技术 和 服务”,但“务”字无法独立成词(即词典中没有),但“和”字可以单独成词(词典中要包含),因此“技术 和服 务”有1个非词典词,而“技术 和 服务”有0个非词典词,因此选用后者。 第6页,共37页。 3、总体词数越少越好,在相同字数的情况下,总词数越少,说明语义单元越少,那么相对的单个语义单元的权重会越大,因此准确性会越高。 第7页,共37页。 基于字符串匹配的分词方法 也叫做基于字典的分词方法,它是以字典为依据的。按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功,即识别出一个词。 又分为三种: 正向最大匹配法(由左到右的方向); 逆向最大匹配法(由右到左的方向); 双向最大匹配法。 第8页,共37页。 最大匹配法 最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描。例如:词典中最长词为“中华人民共和国”共7个汉字,则最大匹配起始字数为7个汉字。然后逐字递减,在对应的词典中进行查找。 下面以“我们在野生动物园玩”详细说明一下这几种匹配方法: 第9页,共37页。 正向最大匹配法 1、正向最大匹配法: 正向即从前往后取词,从7->1,每次减一个字,直到词典命中或剩下1个单字。 第1次:“我们在野生动物”,扫描7字词典,无 第2次:“我们在野生动”,扫描6字词典,无 。。。。 第6次:“我们”,扫描2字词典,有 扫描中止,输出第1个词为“我们”,去除第1个词后开始第2轮扫描,即: 第2轮扫描: 第1次:“在野生动物园玩”,扫描7字词典,无 第2次:“在野生动物园”,扫描6字词典,无 。。。。 第6次:“在野”,扫描2字词典,有 扫描中止,输出第2个词为“在野”,去除第2个词后开始第3轮扫描,即: 第3轮扫描: 第1次:“生动物园玩”,扫描5字词典,无 第2次:“生动物园”,扫描4字词典,无 第10页,共37页。 第3次:“生动物”,扫描3字词典,无 第4次:“生动”,扫描2字词典,有 扫描中止,输出第3个词为“生动”,第4轮扫描,即: 第4轮扫描: 第1次:“物园玩”,扫描3字词典,无 第2次:“物园”,扫描2字词典,无 第3次:“物”,扫描1字词典,无 扫描中止,输出第4个词为“物”,非字典词数加1,开始第5轮扫描,即: 第5轮扫描: 第1次:“园玩”,扫描2字词典,无 第2次:“园”,扫描1字词典,有 扫描中止,输出第5个词为“园”,单字字典词数加1,开始第6轮扫描,即: 第6轮扫描: 第1次:“玩”,扫描1字字典词,有 扫描中止,输出第6个词为“玩”,单字字典词数加1,整体扫描结束。 正向最大匹配法,最终切分结果为:“我们/在野/生动/物/园/玩”,其中单字字典词为2,非词典词为1。 第11页,共37页。 逆向最大匹配法: 逆向即从后往前取词,其他逻辑和正向相同。即: 第1轮扫描:“在野生动物园玩” 第1次:“在野生动物园玩”,扫描7字词典,无 第2次:“野生动物园玩”,扫描6字词典,无 。。。。 第7次:“玩”,扫描1字词典,有 扫描中止,输出“玩”,单字字典词加1,开始第2轮扫描 第2轮扫描:“们在野生动物园” 第1次:“们在野生动物园”,扫描7字词典,无 第2次:“在野生动物园”,扫描6字词典,无 第3次:“野生动物园”,扫描5字词典,有 扫描中止,输出“野生动物

文档评论(0)

你今天真好看 + 关注
实名认证
内容提供者

一起学习交流

1亿VIP精品文档

相关文档