chap6-索引建立.pptVIP

下载本文档

0
0
约3.28千字
约 35页
2018-01-14 发布于河南
举报
版权申诉

chap6-索引建立.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

chap6-索引建立

* * * Refer to : /cmpsci646/ Modified upon the lecture slides by Bruce Croft and James Allan. 中文的trie怎么做拼音？汉字组合汉语词典和中文的分词有关？ Summary Common implementations of indexes Bitmap, signature file, inverted file Common index components Lexicon postings Inverted Search Algorithm Inversion algorithm Inverted file access optimizations compression 实际系统的实现目前软件系统开发很少是从零开始做，一般参照可公开利用的源码，经过改造得到的。目前最常用的是利用Lucene 建立索引。 Lucene 目前是最常用的基于Java的搜索服务开发工具包，Nutch 是基于该软件包的搜索引擎的原型系统。 The End * * * * * * * * * * * * * * * * * * * * * * * * * * * * 文件索引建立为什么需要索引对海量数据，全文存储在检索上太耗时，无法再内存中进行操作。索引可以快速的对包含关键词的文档进行定位，查询时间可以和文档长度无关，只和查询词长度有关。和数据库索引的区别数据库只索引某几项，而信息检索需要都索引。因为数据库的查询句是固定的，而信息检索是变化的。索引是基于未来可能查询的“项”（terms）. –来自文本中的所有词。 Indexes: 实现方法有代表性的方法 Bitmaps （位图） Signature files （签字文件） Inverted files （倒排文件）索引要素词 :Dictionary (lexicon) 元数据 document ids word positions No positional data indexed Indexes: Bitmaps 本质上是文档的向量表示，若文档包含某一特征词，则对应的位置上标记1，否则为0. Signature Files 对每个项，给出长度为s的向量（hash函数值）把一篇文档中的所有词的向量进行OR操作，得到的向量为文档的签名。长文档肯定成为问题，解决的方法是分块签字。 Signature File Example Signature File Example Indexes: Signature Files 查询方法若查询词可以在文档中找到签名对应的1,则认为文档中包含这个项。 Indexes: 倒排文档目前最常用的索引方法起源为书中术语检索的方法 Eg. Computer page 8, line 12 Inverted Files Inverted Files Word-Level Inverted File 倒排文档的搜索算法 Find query elements (terms) in the lexicon (词典） Retrieve postings for each lexicon entry Manipulate postings according to the retrieval model Word-Level Inverted File Query: 1.porridge pot (BOOL) 2.“porridge pot” (BOOL) 3. porridge pot (VSM) Lexicon词汇表 Posting 记录表 Answer 倒排文件的建立采用合适的数据结构，建立检索词汇表。对英文主要采用被称为trie的数据结构。 1) 前面给出的词汇和记录表在一起的形式。但可能词汇表本身很大 2) 词汇表和记录表分开，用指针给出对应关系。 3）词汇表和记录表分开，但没有直接连接指针，而是中间用一个数据结构把两者联系起来。词汇表结构基于 Heaps 的定理，可能词汇表的尺寸很大. 常采用两种方法存放 Hash table O(1) 查找时间和接近常数时间的处理冲突。扩展比较麻烦 B-Tree 可以利用磁盘存储空间.查找时间快。 O(log n) 的查找时间，易于扩展。 Trie In-memory Inversion Algorithm Create an empty lexicon For each document d in the collection, Read document, parse i