chapter3 index7 [兼容模式] - 南京大学信息管理学院.pdf

chapter3 index7 [兼容模式] - 南京大学信息管理学院.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
chapter3 index7 [兼容模式] - 南京大学信息管理学院

Chapter 3. 文本索引 (Indexing) 欧石燕 南京大学信息管理学院 为什么要建立索引? 索引(Indexing) • 建立索引 (indexing): : 将待搜索的信息进行一定的分 析,并将分析结果按照一定的组织方式存储起来。 • 索引 (index): 是一种数据结构,它在关键词与包含该关 键词的文档(或关键词在文档中位置)之间建立了一种 映射关系,从而加快检索速度。 • 常用的索引技术: − 倒排索引 − 签名文件 − 后缀树 • 实验数据表明,倒排索引是单词到文档映射关系的最佳 实现方式。 Inverted Index 倒排索引 ( ) • 给定一文档集合D − D={d , d , d ,..d , …, d }, 每个文档含有唯一的ID 1 2 3 j N (如id ) j • 一个倒排索引包含: − 一个单词词典(词表)V, V={t , t , t , …t , …t }, 该 1 2 3 i M 词表中含有文档集合中出现的所有不同的单词; − 对于每一个单词(如t ),有一个倒排项 i id , f , [o , o , …o ] j ij 1 2 |f | ij • id : 含有词t 的文档ID j i •f 词t 在文档d 中出现的次数(频率) ij: i j • [o , o , …o ]:词t 在文档d 中出现的位置 1 2 |fij| i j 一个简单的倒排索引举例 单词-页码对照表 倒排索引 •词典 (Vocabulary):在文档集合中出现的所有不同单词构成的集合。 •倒排列表 (Posting List):记载出现过某个单词的所有文档的文档列表及 单词在该文档中出现的位置信息。 •倒排文件 (Inverted File):所有单词的倒排列表往往顺序地存储在磁盘的 某个文件里 ,称为倒排文件。倒排文件是存储倒排索引的物理文件。 文档集合的倒排索引 倒排索引实例一(1) 1.对汉语需先进行分词处理 ; 2.如有必要 ,需去除没有实际意义的停用词。 文档集合中出现的所有不同词的词表 倒排索引实例一(2) 倒排索引实例一(3) 倒排索引实例二(1) •文档集合(含有3篇文档): −id : Applications of information retrieval on the Web. 1 −id : Retrieving information is useful for information 2 acquisition. −id : Information on the Web. 3 •文档预处理: −去除停用词, 如“is”,”on”,”th

文档评论(0)

yanpizhuang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档