信息检索2 搜索引擎的架构教学课件.ppt

停用词(stopword)是指在文档中出现最频繁且没有实际意义的词,例如典型的功能( function)词。如:“the”、“of”、“to”和“for”。 停用词去除组件的任务就是判断索引项是否为停用词,从而避免他们成为索引项。 研究中使用的停用词表包含几十个到几百个常用。 使用停用词表的问题是,用户如果提交查询“to be or not to be”或“down under”,搜索引擎不可能返回搜索结果。在索引阶段预处理文本的时候,可以使用一个很小的停用词表(可能仅含有一个停用词“the”),但在对于查询文本进行预处理的时候,则用一个较大的停用词表。 * * Nevertheless: “Google ignores common words and characters such as where, the, how, and other digits and letters which slow down your search without improving the results.” (Though you can explicitly ask for them to remain.) * 词干提取组件(或词干提取器,stemmer)的任务是把源于同一个词干(stem)的派生词进行归一化。例如,把“fish”、“fishes”、“fishing”归为一个等价类。通过使用一个给定的词(如最短的词,上面的例子中是“ fish”来替换等价类中的每一个元素,可以进一步提高查询与文档中词之间匹配的可能性。 词干提取对排序的效果通常只有很小的改善。类似于停用词去除,词干提取可以有选择性的进行,如对所有词、对少部分词或干脆不做。 针对所有词进行词干提取可能会导致搜索问题。例如,用户提交查询“fishing”,系统检索回来的文档中包含的是fish”的其他词形的词,这样的检索结果不是很恰当的。有些搜索引擎应用中,谨慎地对少部分词进行了词干提取,如只用“s开来识别复数形式,或者在索引处理阶段不进行词干提取。词干提取的工作集中在对查询文本进行适当的词的变形。 与英语相比,一些语言,如阿拉伯语和土耳其语以及维吾尔语,具有更复杂的词汇形态(morphology),词干提取格外重要。在这些语言中,高质量的词干提取组件对于搜索效果有着重大的影响。与之相比,对于中日韩语言,词形的变化很少,在这些语言上不必进行词干提取工作。 * * 网页中的超链接和锚文本被识别并抽取出来,记录在文档数据库中,和文本内容分开索引。 网络搜索引擎通过使用像PageRank这样的链接分析(link analysis)算法,广泛地利用超链接和锚文本这些信息。 链接分析向搜索引擎提供一个页面的关注度,并且在一定程度上还向搜索引擎提供一个页面的权威度(authority,重要度的一个参考指标)。 对于有些类型的查询,这超链接和锚文本可以很大程度地改善检索效果。 * * 信息抽取用于识别更加复杂的索引项,而不是一个单独的词。这些索引项可能简单地是一个黑体、加粗的词,或者是标题短语。 但通常的信息抽取需要更复杂的计算。例如抽取句法特征,如名词短语,需要某种形式的句法分析和词性标注(part-of-speech tagging)。 该领域的研究专注于抽取具有指定语义内容的特征。例如,命名实体(named entity)识别器,能够地识如人名、地名、机构名称、日期和等信息。更加复杂的事件抽取器识别与某事件相关联的实体、时间、事件等参数。 * * 文本分类器组件为文档或文档中的部分内容识别出与类别相关的元数据:事先定义好的类别标签。这些标签代表性地表达话题的类别,如“科技”、“体育”、“政治”或“经济”。文本分类技术的典型应用如判断垃圾邮件,新闻网站的自动分类等。 信息检索中分类技术的两个重要实例:判别一个文档是否是垃圾文档,以及识别文档中的非内容部分,如广告。 聚类技术用于在没有事先定义类别标签的基础上,将相关的文档聚集在一起。在排序或用户交互过程中,文本聚类被以多种方式使用。 * * 文本转换组件将文档转化为索引项(index term)或者“特征”(feature)。索引项从文档中抽取,保存在索引数据库中用于搜索。 最简单的索引项是一个英语单词或者一个汉语字,但是并不是所有的单词或者字都用于检索。例如最常用的单词或汉字。 “特征”用于表示文档的内容。虽然特征经常直接取自于文档,但是某些时候却是间接的取自文档。如经过单复数词性变换的单词。特征也可以作为索引项。 比较复杂的索引项和特征可以是短语、人名、日期、超链接等等。 索引项有时候简单的称为词项(term)。整个文档集合的所有词项集合,称为索引词表(index vocabulary)。

文档评论(0)

1亿VIP精品文档

相关文档