- 4
- 0
- 约 35页
- 2016-11-28 发布于河南
- 举报
数据挖掘以及搜索引擎经典pptchap6
文件索引建立 为什么需要索引 对海量数据,全文存储在检索上太耗时,无法再内存中进行操作。 索引可以快速的对包含关键词的文档进行定位,查询时间可以和文档长度无关,只和查询词长度有关。 和数据库索引的区别 数据库只索引某几项,而信息检索需要都索引。因为数据库的查询句是固定的,而信息检索是变化的。 索引是基于未来可能查询的“项”(terms). –来自文本中的所有词。 Indexes: 实现方法 有代表性的方法 Bitmaps (位图) Signature files (签字文件) Inverted files (倒排文件) 索引要素 词 :Dictionary (lexicon) 元数据 document ids word positions Indexes: Bitmaps 本质上是文档的向量表示,若文档包含某一特征词,则对应的位置上标记1,否则为0. Signature Files 对每个项,给出长度为s的向量(hash函数值) 把一篇文档中的所有词的向量进行OR操作,得到的向量为文档的签名。 长文档肯定成为问题,解决的方法是分块签字。 Signature File Example Signature File Example Indexes: Signature Files 查询方法 若查询词可以在文档中找到签名对应的1,则认为文档中包含
原创力文档

文档评论(0)