计算机情报检索系统自动索引与文档组织.pptVIP

  • 6
  • 0
  • 约4.62千字
  • 约 35页
  • 2019-12-08 发布于广东
  • 举报

计算机情报检索系统自动索引与文档组织.ppt

搜索引擎数据库的倒排文档 倒排索引的生成过程如图: 倒排文档的存储结构,直接决定了搜索引擎系统的检索速度,并且在一定程度上也影响到检索结果的准确度。 网络上的网页繁多,更新迅速,而且信息冗余量大。对数据存储方式的改进也正是根据这些特点 搜索引擎数据库的倒排文档 倒排文档的更新 增加、删除和索引库的整理。 增加时直接放在原有索引库相应位置的后面,如遇空间不够,则需开辟新的存储区域,并建立指针指向新块供检索。 删除时不能直接从库中清除,要先在索引信息前面加删除标志,检索时跳过。后期,定期对索引库进行整理。 整理时是将被删信息真正清除出去,把库的信息前移,覆盖被删信息,使库体积缩小。 倒排文件的主要优缺点 倒排文件的主要优点是:检索记录较快,在处理复杂的多关键字查询时,可在倒排表中确定记录是哪个或哪些,继而直接读取之; 倒排文件的缺点是维护困难:在同一倒排表中,不同关键字的记录数不同,各倒排表的长度也不等。 本章小结 理解文档的基本概念。 掌握各种文件的结构,包括顺序文档、索引文档、索引倒排文档等。 理解自动索引的原理。 掌握倒排文档在数据库、网络信息检索中的应用。 PS:自动抽词、自动索引、自动检索、自动文摘、自动分类、自动翻译 * * * 计算机情报检索系统 第三章 自动索引与文档组织 Speaker: 孙丹霞

文档评论(0)

1亿VIP精品文档

相关文档