网站大量收购独家精品文档,联系QQ:2885784924

一种高效的倒排索引存储结构.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种高效的倒排索引存储结构

, ( ) 149 Computer Engineering and Applications 计算机工程与应用 2008 44 31 一种高效的倒排索引存储结构 邓 攀,刘功申 , DENG Pan LIU Gong-shen 上海交通大学信息安全工程学院,上海 200240 Department of Information Security ,Shanghai Jiaotong University ,Shanghai 200240 ,China E-mail :dengpan@ DENG Pan ,LIU Gong-shen.Effective storage structure of inverted index.Computer Engineering and Applications ,2008 ,44 (31):149-152. Abstract :Inverted index is the core component of an information retrieval system ,the storage structure of it plays a crucial role in effect and efficiency of retrieval.In this paper ,according to the frequencies distribution of Chinese vocabulary and the current hardware and software environment ,the authors introduce an effective storage structure of inverted index that can save the disk usage and improve the efficiency of retrieval ,as well as supporting real time update and delete. Key words :inverted index ;dictionary ;capacity ;add-on block 摘 要:倒排索引是信息检索系统的核心部分,其存储结构对检索的效率和效果起着至关重要的作用,根据汉语词汇的频率分布 情况和当前的软硬件环境,提出一种高效的倒排索引结构,在一定程度上能够节省磁盘空间,提高检索效率,并且支持增量更新和 删除。 关键词:倒排索引;词典;容量;追加块 DOI :10.3778/j.issn.1002-8331.2008.31.043 文章编号:1002-8331 (2008)31-0149-04 文献标识码:A 中图分类号:TP311 1 引言 可见,国内外针对倒排索引优化的研究主要出发点有3 在当前的网络环境下,信息量和用户量都爆炸式的增长, 个:(1)通过压缩技术减小索引在外存上的体积。 (2)对倒排表 这给大规模信息检索系统的准确高效的提供服务带来了很大 内容的组织方式进行优化,减少需要访问的倒排表内容。如词 的压力,而倒排索引是信息检索系统的核心部分,其组织方式 频降序,插入同步点。 (3)对倒排表的磁盘存储结构进行管理, 和存储结构对信息检索系统得性能有很大影响,因此,除了改 尽量减小磁盘的IO 次数。 进检索算法之外,优化倒排索引的存储结构成为一个很受关注 当前通用的计算机存储介质中。主存读写效率比较高,存 的课题。 取时间在几十到100 ns 之间,但是存储容量有限。辅存一般由 F Scholer 和J Zobel 等人提出倒排表根据文档号增序组 一个或数个磁盘驱动器组成,其存储容量比较大,但是读取效 织,通过倒排索引的数据压缩技术,希望通过减小索引文件体 率相对较低。由于倒排索引文件规模比较大,磁盘上

文档评论(0)

hhuiws1482 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5024214302000003

1亿VIP精品文档

相关文档