- 6
- 0
- 约4.62千字
- 约 35页
- 2019-12-08 发布于广东
- 举报
搜索引擎数据库的倒排文档 倒排索引的生成过程如图: 倒排文档的存储结构,直接决定了搜索引擎系统的检索速度,并且在一定程度上也影响到检索结果的准确度。 网络上的网页繁多,更新迅速,而且信息冗余量大。对数据存储方式的改进也正是根据这些特点 搜索引擎数据库的倒排文档 倒排文档的更新 增加、删除和索引库的整理。 增加时直接放在原有索引库相应位置的后面,如遇空间不够,则需开辟新的存储区域,并建立指针指向新块供检索。 删除时不能直接从库中清除,要先在索引信息前面加删除标志,检索时跳过。后期,定期对索引库进行整理。 整理时是将被删信息真正清除出去,把库的信息前移,覆盖被删信息,使库体积缩小。 倒排文件的主要优缺点 倒排文件的主要优点是:检索记录较快,在处理复杂的多关键字查询时,可在倒排表中确定记录是哪个或哪些,继而直接读取之; 倒排文件的缺点是维护困难:在同一倒排表中,不同关键字的记录数不同,各倒排表的长度也不等。 本章小结 理解文档的基本概念。 掌握各种文件的结构,包括顺序文档、索引文档、索引倒排文档等。 理解自动索引的原理。 掌握倒排文档在数据库、网络信息检索中的应用。 PS:自动抽词、自动索引、自动检索、自动文摘、自动分类、自动翻译 * * * 计算机情报检索系统 第三章 自动索引与文档组织 Speaker: 孙丹霞
您可能关注的文档
最近下载
- JB_T 14179-2022 带式输送机用托辊冲压轴承座.pdf
- IATF16949审核员指南(第五版).docx VIP
- 2025年副高卫生职称-临床医学检验学技术-临床医学检验临床基础检验技术(副高)[代码:057]历年.docx VIP
- 2026年人教版六年级小升初语文期末统考仿真卷(附答案可下载).docx VIP
- 2026年安全生产月启动仪式领导讲话稿(1)(1).docx VIP
- 年产2亿袋板蓝根颗粒剂车间工艺设计.docx VIP
- 发票开具项目信息导入模板.xlsx VIP
- 2025年副高卫生职称-临床医学检验学技术-临床医学检验临床化学技术(副高)[代码:058]历年参考.docx VIP
- 第五组legalument法律英语文体分析详解.ppt VIP
- 团体心理治疗应用专家共识(2026版).docx
原创力文档

文档评论(0)