- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
chapter3 index7 [兼容模式] - 南京大学信息管理学院
Chapter 3. 文本索引
(Indexing)
欧石燕
南京大学信息管理学院
为什么要建立索引?
索引(Indexing)
• 建立索引 (indexing): : 将待搜索的信息进行一定的分
析,并将分析结果按照一定的组织方式存储起来。
• 索引 (index): 是一种数据结构,它在关键词与包含该关
键词的文档(或关键词在文档中位置)之间建立了一种
映射关系,从而加快检索速度。
• 常用的索引技术:
− 倒排索引
− 签名文件
− 后缀树
• 实验数据表明,倒排索引是单词到文档映射关系的最佳
实现方式。
Inverted Index
倒排索引 ( )
• 给定一文档集合D
− D={d , d , d ,..d , …, d }, 每个文档含有唯一的ID
1 2 3 j N
(如id )
j
• 一个倒排索引包含:
− 一个单词词典(词表)V, V={t , t , t , …t , …t }, 该
1 2 3 i M
词表中含有文档集合中出现的所有不同的单词;
− 对于每一个单词(如t ),有一个倒排项
i
id , f , [o , o , …o ]
j ij 1 2 |f |
ij
• id : 含有词t 的文档ID
j i
•f 词t 在文档d 中出现的次数(频率)
ij: i j
• [o , o , …o ]:词t 在文档d 中出现的位置
1 2 |fij| i j
一个简单的倒排索引举例
单词-页码对照表
倒排索引
•词典 (Vocabulary):在文档集合中出现的所有不同单词构成的集合。
•倒排列表 (Posting List):记载出现过某个单词的所有文档的文档列表及
单词在该文档中出现的位置信息。
•倒排文件 (Inverted File):所有单词的倒排列表往往顺序地存储在磁盘的
某个文件里 ,称为倒排文件。倒排文件是存储倒排索引的物理文件。
文档集合的倒排索引
倒排索引实例一(1)
1.对汉语需先进行分词处理 ;
2.如有必要 ,需去除没有实际意义的停用词。
文档集合中出现的所有不同词的词表
倒排索引实例一(2)
倒排索引实例一(3)
倒排索引实例二(1)
•文档集合(含有3篇文档):
−id : Applications of information retrieval on the Web.
1
−id : Retrieving information is useful for information
2
acquisition.
−id : Information on the Web.
3
•文档预处理:
−去除停用词, 如“is”,”on”,”th
您可能关注的文档
- c8abd2b3d5d5c6ac - 内蒙古工业大学.pdf
- cad/cam口腔修复技术的研究现状.pdf
- cad/cam用ハイブリッド型コンポジットレジンクラウン修复治疗 .pdf
- captionsleci16stxt 塞蒂纳(karin knorr-cetina 1999) 首次 - anu.pdf
- canny 边缘检测算法的改进及fpga 实现 - 红外技术.pdf
- cal环境下高中三角学的创意思考与学习 - gcsce.doc
- cardiochek pa 便携式全血分析仪检测血脂性能及其在社区脑卒中 .pdf
- ccd 在材料形变测量中的应用.pdf
- ccgf 3012—2015 卫生纸pdf - 国家质量监督检验检疫总局.pdf
- ccgf 6063—2015 汽车轮胎pdf - 国家质量监督检验检疫总局.pdf
文档评论(0)