第六节 高性能检索子系统.ppt

  1. 1、本文档共89页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第六章 高性能检索子系统 张宇 计算机科学与技术学院 主要内容 检索系统基本技术 倒排文件性能模型 混合索引技术 倒排文件缓存机制 本章小结 主要内容 检索系统基本技术 倒排文件性能模型 混合索引技术 倒排文件缓存机制 本章小结 检索系统基本技术 系统设计与结构 索引创建 检索过程 检索系统基本技术 系统设计与结构 索引创建 检索过程 检索系统基本技术 -系统设计与结构 搜索引擎检索系统设计遵循的指标 检索效率—用户查询的响应时间 用户的需求是“随心所欲的” 响应迟缓的系统只能意味着较少的用户 检索效果—用户的满意度 搜索引擎的检索技术相对于最新的信息检索研究成果是落后的 提高检索效果面临的问题 用户普遍使用短查询、不作优化 相关度计算 检索系统基本技术 -系统设计与结构 检索系统基本技术 -系统设计与结构 天网检索系统的设计原则 系统效率和可扩展性 通过集成的框架结构,能够有效地把各种有利于改善检索效果的技术集成起来 天网系统框架 文档表示 用户信息需求的类型识别 不同检索排序方式得到的结果的融合 检索系统基本技术 -系统设计与结构 天网系统的实现基于信息检索技术 排序算法和模型的选择 模型 布尔模型 向量空间模型 检索系统的相关性排序由多种因素综合决定 查询词的邻接关系运算结果 查询词出现的位置,包括Title、Anchor Text 相似度权值与其他的权值,如全局属性的PageRank值 检索系统基本技术 -系统设计与结构 索引的实现技术 采用倒排文件索引 索引文件的组织结构 链表 有利于提高更新效率,但会降低检索效率 索引项数据连续存放 有利于提高检索效率,但不利于更新 索引文件的压缩 检索系统基本技术 -系统设计与结构 检索系统采用分布式系统结构 检索系统基本技术 系统设计与结构 索引创建 检索过程 检索系统基本技术 -索引创建 索引词选择 索引词的选择是检索系统实现的一个重要环节 中文文本必须通过自动分词程序的处理 基于词典的分词方法 基于统计语言模型的分词方法 英文文本 统一转换为小写,但不作词根词形变换 检索系统基本技术 -索引创建 网页预处理 编码转换 GBK、GB2312、GB18030…… 简繁转换 简繁并不是一一对应的 发(發、髮),台(臺、檯、颱) 大量网页不符合HTML规范、网页中存在大量无用的信息(广告、导航条) 检索系统基本技术 -索引创建 索引创建算法 页面分析 按HTML语法规则分析网页标签结构 提取索引词 记录每个索引词的TF(词频)DF(文档频率)值 通过散列表转换为索引词编码,保存得到的词典文件 保存页面分析的结果到临时文件 检索系统基本技术 -索引创建 生成临时倒排文件 根据计算的TF和DF值,可以估算出倒排文件中相应数据项的长度,预申请整个文档集合倒排所需要的内存空间 重新读取页面分析保存结果的临时文件,在内存中执行倒排,把结果保存到临时倒排文件中 对生成的多个临时倒排文件,执行多路归并、压缩编码,输出得到最终的倒排文件 检索系统基本技术 系统设计与结构 索引创建 检索过程 检索系统基本技术 -检索过程 索引压缩 优点 减小倒排项数据长度 减少内存和I/O带宽的使用 缺点 对压缩数据解码,增加了CPU时间消耗 方法 字节对齐索引压缩 变长索引压缩 检索系统基本技术 -检索过程 字节对齐索引压缩 用少量最左边的比特位(bit)表示整数实际占用的字节数 优点 容易编码和解码 位操作少,占用CPU时间少 缺点 压缩效率低 每个整数至少占用一个字节的空间 检索系统基本技术 -检索过程 检索系统基本技术 -检索过程 变长索引压缩 一元编码 整数x编码成x-1个比特位,后跟一个0表示结束 检索系统基本技术 -检索过程 γ编码 将整数x分成两个部分1+[logx]和x-2[logx] 1+[logx]用一元编码实现 x-2[logx]用[logx]比特位的二进制编码表示 检索系统基本技术 -检索过程 δ编码 将整数x分成两个部分1+[logx]和x-2[logx] 1+[logx]用γ编码实现 x-2[logx]用[logx]比特位的二进制编码表示 当整数小于15时,δ编码比γ编码编码长,大于15时, δ编码优于γ编码 检索系统基本技术 -检索过程 随机访问的索引组织 对索引项建立二级索引,使得可以随机访问倒排项数据块 数据块的大小 小数据块访问 频繁系统调用 寻道时间消耗较大 大数据块访问

文档评论(0)

kehan123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档