- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多级指引索引的高效技术_计算机论文.doc
基于多级指引索引的高效技术_计算机论文
基于多级指引索引的高效技术_计算机论文
摘 要 介绍了搜索引擎中基于多级指引索引的高效技术。包括索引压缩,置入文件阀值的方法。其中索引压缩介绍了字节对齐压缩、Elias gamma编码、Elias delta编码、Golomb编码、二 元插值编码,并对其压缩效率,解压速度以及相对性能做了比较,叙述了在不同的情况下使用不同的编码,以便提高搜索效率。
关键词 搜索引擎,多级指引索引,索引压缩,置入文件阀值
1 引言
搜索引擎(Search Engine)是随着Web信息的迅速增加,从1995年开始逐渐发展起来的技术。它是一种Web上的应用软件系统,以一定的策略在Web上发现和收集信息,对信息进行组织和处理,为用户提供Web信息查询服务。
一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。其中索引器是一个搜索引擎的核心部分,因此索引的好坏直接影响到整个搜索引擎的质量。采用多级指引索引数据结构,尽管建立时需要付出一定代价,但是极大地提高了查询效率。本文在多级指引索引的基础上,介绍了提高效率的策略,其中包括多级指引索引的压缩,置入文件阈值(posting list threshold)的方法。
2 多级指引索引简介
图1 索引多级指引结构 多级指引索引是倒排索引的进化,既满足检索接口的词语-网页结构的需要,又考虑到庞大数据量结构组织的可行性。在词语集设置网页指针,将包含该词语的网页分块放置,减少存储相同词语的空间,根据词语标识符直接找到网页分块首位置,并为下一级指引提供前提;同一个词语在不同网页中出现的位置是变值,设置位置指针可以减少存储相同网页号的空间。
3 多级指引索引的压缩
多级指引索引压缩的目标是通过减少存储需求来降低输入输出。需要压缩的内容包括:词语列表中的词语名,每一个置入文件列表记录(entry)中的词频,每一个置入文件列表记录文档标识符。如果多级指引索引减少存储量,I/O读写置入列表(posting list)的时间就会减少,也就减少了内存、磁盘空间的占用。而一个没有被压缩的多级指引索引通常需要超过30%的空间来存储可压缩的数据,压缩后的数据只占原可压缩数据的10%-15%。但是存在的问题是,要对数据编码解码,增加了CPU时间耗用,考虑到I/O是系统的瓶颈,CPU与I/O之间不断扩大的性能差距,以时间换取空间是可行的。压缩不仅提高查询时的效率,还能加快创建索引,从各方面提升系统性能。
多级指引索引压缩的方法有字节对齐压缩,Elias gamma编码,Elias delta编码,Golomb编码,二元插值编码。
3.1 字节对齐压缩(Byte-Aligned)
字节对齐压缩[1]即对于一个给定的正整数,用一个或多个字节表示。表示该数首字节最左边的两位为长度指示器(length indicator),剩余位可以用来存储实际的数。文档ID不同,记为x,文档ID需要基于x的字节标识码,用前面所说的2bits写下长度指示器。写下x的二进制表示法,如下例:
0-63 00xxxxxx
64-(16K-1) 01xxxxxx xxxxxxxx
16K-(4M-1) 10xxxxxx xxxxxxxx xxxxxxxx
4M-(1G-1) 11xxxxxx xxxxxxxx xxxxxxxx xxxxxxxx01… …
636401000000
6501000001
字节对齐压缩的优点是容易编码和解码,位操作少,占用CPU时间少,缺点是对很小的整数压缩率低,每个整数最少用一个字节的空间。
3.2 Elias gamma(γ)编码
用γ[2]方法表示文档ID的x的数值: 表示2的 次幂不超过x的最大值;一个0作为标记位(marker);取x- 余数二进制编码的 位。用2 +1bits表示x的值,整数越小,则表示它值的位数就越少。大多数词频相对很小。
举个例子:
X=22
=4 24≤x25
4为2的 次幂不超过22的最大值,所以得出4位一元码(unary):1111
x- =22-24=6
用4位二进制数表示余数6:0110
最后的γ编码为:1111 0 0110
x1234567……63
γ0100101110001100111,0,1011,0,1111111,0,11111Elias Gamma Encoding(γ)总结:Gamma编码对于一元码很小的小整数是有效的,但是对于存储15个以上的整数效率就降低。
3.3 Elias Delta(δ)编码
Delta[2]编码实际上是Gamma编码的延伸,其中整数x由两部分表示,1+ 位由Gamma编码得出,之后标记位,
您可能关注的文档
- 基于PXI总线的高速数字传输模块设计及正交解调的实现(二)_电子机械论文.doc
- 基于RBF神经网络的四声自动识别及应用_计算机论文.doc
- 基于RED算法的拥塞控制的研究_计算机论文.doc
- 基于RFID技术的仓储物流入库流程设计_计算机论文.doc
- 基于RFID电子标签的物流控制系统的设计_计算机论文.doc
- 基于ROR的网络订餐系统的设计与实现_计算机论文.doc
- 基于SDH传输网络的POS与EOS接入技术比较_计算机论文.doc
- 基于SemRank的CWME专家权威度计算方法研讨_计算机论文.doc
- 基于SIP的远程多媒体教学系统的设计与研究_计算机论文.doc
- 基于SNMP的统一网管框架的设计与实现_计算机论文.doc
文档评论(0)