面向动态文档集的大规模文本索引构建技术研究.pdfVIP

  • 3
  • 0
  • 约7.38万字
  • 约 61页
  • 2019-02-25 发布于江苏
  • 举报

面向动态文档集的大规模文本索引构建技术研究.pdf

(1) 准动态全文索引准动态,又称为可增式动态,即索引文件在显式的命 令下可以进行增加和删除。准动态全文数据库其实是静态全文数据库的有限改 进,它把索引的更新分成两种类型:一是索引从无到有的“第一次”创建,二 是在原有的索引上添加。由于索引的“第一次”创建可以看作在大小为 0 的索 引上添加数据,因此可以证明,对于同样的新文本集使用同样的算法,单独为 其创建一个新的索引,其效率不会低于在一个己有的索引上添加这些文本的索 引。己有的成果证明,这两种过程的效率差异非常大,因此以 Microsoft Index Server 为代表的绝大多数全文数据库系统均采用为新文本集创建一个新的索引 再使其与原有索引合并的方法。虽然索引合并也是一个牵涉大量外存 I/O 操作 的较费时的过程,但是准动态全文数据库假设新文本集的大小相对原数据库的 数据量是很小的,数据库的变化也是不频繁的。 (2) 半动态全文索引半动态全文索引和准动态索引相比,对于前者,当原 文本集变动时,系统并不需人工显式干预才对原索引进行增加或删除,而是系 统启动时,自动对文本集进行检查,若发现己有新增文本或己有文本已被删 除,则自动更新索引,以使索引和文本相一致。实现索引半动态的思路也比较 直接,只需在系统

文档评论(0)

1亿VIP精品文档

相关文档