搜索引擎基本原理及实现技术——索引分解.ppt

搜索引擎基本原理及实现技术——索引分解.ppt

搜索引擎基本原理及实现技术 ——索引技术 网络爬虫辛辛苦苦的把网页爬回来之后…… 预处理系统 主要工作 信息抽取 分词 分类等处理工作 生成正排发送 到索引系统生成倒排索引。 信息抽取 去标签和去噪 去标签 构造 DOM 树。,Jsoup;tinyHTML,htmlParser 去噪 去掉与正文不相关的广告或者其他信息。如广告,评论,导航条,版权信息,友情链接等等。 分词 分词的目的是为了提取文件特征,文件特征即网页内容的结构化表现形式。 分词方法 基于字符串匹配的分词方法 基于理解的分词方法 基于统计的分词方法 基于字符串匹配的分词方法 也叫做基于字典的分词方法,它是以字典为依据的。按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功,即识别出一个词。 又分为三种: 正向最大匹配法(由左到右的方向); 逆向最大匹配法(由右到左的方向); 最少切分法(使每一句中切出的词数最小)。 基于理解的分词方法 该方法又称基于人工智能的分词方法。 它是利用汉语的语法知识和语义知识以及心理学知识进行分词,需要建立分词数据库、知识库和推理机。这种分词方法需要使用大量的语言知识和信息。 目前还处在试验阶段。 基于统计的分词方法 又称为无字典分词,它的主要思想是:词是稳定的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档