基于文本的索引构建技术剖析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
概要 概要 3.1基于块的排序索引技术 图3-2 桂林电子科技大学-新闻内容文档实例 3.1基于块的排序索引技术 符号 含义 统计值 N 文档总量 900 000 L 每篇文档的平均词项数量 160 M 词项目总数 190 000 每个词项的平均字节数(包含空格与标点) 4.1B 每个词项的平均字节数(不包含空格与标点) 3.7B 每个词项的平均字节数 4.6B T 倒排记录总数 40 000 000 表3-1 桂林电子科技大学-新闻文档集统计数据表 3.1基于块的排序索引技术 基于磁盘的外部排序算法ESA(External Sorting Algorithm) 核心 在索引排序时,尽量减少磁盘寻道次数 基础 BSBI算法(Blocked Sort-based Indexing Algorithm,基于块的排序算法) 3.1基于块的排序索引技术 BSBI算法步骤: 1 将文档集分割成多个大小相等的部分 4 将所有的中间文件合并成最终的索引 2 将每个部分的词项 ID—文档 ID 对排序 3 将中间产生的临时排序结果存放到磁盘中 3.1基于块的排序索引技术 选择合适的块算法,下图的算法将每个块的倒排索引存入文件中f1…fn,最后合并为fmerged。 图3-3 基于块的排序索引算法 3.1基于块的排序索引技术 依据图3-3的算法将待合并的倒排记录表(两个数据块)从磁盘读入内存,然后在内存中合并后写入磁盘(见图3-4)。 图3-4 基于块的排序方法合并示意图 3.2基于内存单次扫描的排序构建技术 基于内存单次扫描的索引算法SPIMI (single-pass in-memory indexing): 每块采用不同的词典,将每个块的词典写入磁盘,对于下一个块则重新采用新的词典。 只要硬盘空间足够大,SPIMI 就能够索引任何大小的文档集。 原因 基于块的排序索引算法具有很好的可扩展性,但是需要一种将所有词项放到内存。对于大规模的文档集来说,该数据结构会很大以致在内存中难以存放。 3.2基于内存单次扫描的排序构建技术 SPIMI算法的步骤: Click to add Title Click to add Title Click to add Title 2 将所有的中间文件合并成最终的索引 1 处理文档,直到内存不足,写入磁盘 3.2基于内存单次扫描的排序构建技术 图3-5 SPIMI算法的块倒排索引生成算法 3.2基于内存单次扫描的排序构建技术 SPIMI算法与BSBI的区别:  通过判定循环动态增加排序记录表的,倒排记录表的 SPIMI算法  直接在倒排记录表中增加定位符项,且开始就需要处理形成所有项的“词项-文档ID”并进行排序 BSBI算法 3.3顺排文档索引 将文档中的每一条记录依次去匹配用户的检索提问集合,文档处理完毕后,将各提问的命中结果归并分发给有关用户。 思想 用文档中记录一条一条去匹配提问的,是顺序对文档记录检索的方法 定义 采用列表处理方法将提问逻辑式(检索式)变换成等价的提问展开式,按提问展开表的内容对顺排文档的每篇文献进行检索 关键技术 表展开法、逻辑树法等 常见方法 3.3顺排文档索引 3.3.1 表展开法索引 1968年,日本学者菊池敏典提出,又称“菊池敏典算法”。目前主要用于面向定向服务的检索系统,旨在将代表用户的逻辑提问式转换成检索表的形式,该检索表规定了表内容走向和检索命中与否的判断,检索时根据表内容走向及其他相关信息来判断每条记录是否检索命中。 3.3顺排文档索引 1、展开表的含义 将经典布尔逻辑检索的逻辑提问表达式转换为逻辑检索表,每个检索词的检索组配关系要求能够用表进行精确映射,检索的记录是够最终命中检索需求要能准确反映出来。(A+B)*(C+D)的展开表如3-2所示 表3-2 (A+B)*(C+D)的展开检索基础表 地址 检索词 条件满足指向 条件非满足指向 1 A 3 2 2 B 3 落选 3 C 命中 4 4 D 命中 落选 表中,“命中”表示被查比的文献满足查询要求的出口,“落选”表示反之 3.3顺排文档索引 2、展开表生成 过程 检索词 检索运算符 改变运算

文档评论(0)

w5544434 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档