- 1、本文档共58页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎检索系统性能与评估
搜索引擎检索系统性能与评估 彭波 北京大学网络与分布式实验室 2004年4月15日 提纲 工作的背景和意义 WEB检索系统框架结构 WEB检索系统效率优化 WEB检索系统效果评估 工作总结 工作的背景和意义 World Memex 无数本书籍、图片、声音录音,超链接互相链接 搜索和查询,语音命令界面 共享阅读的注解 Web发展 每年WEB流量增加100% 每天增加大约100万的新网页 2004年4月,Google-4,285,199,774个网页提供检索服务 … 约85%的用户使用搜索引擎去定位他们需要的信息 搜索引擎已经成为了人们进行信息获取的一个基础设施 WEB检索系统框架结构 相关度排序策略 分级权值 临近权值:位置临近、短语 位置权值:Title,AnchorText 基本权值:VSM相似度,PageRank等 基本权值融合 where 分布式检索系统结构 检索系统实现技术要点 词级全文倒排索引(采用中文分词) 索引词选择 编码转换 网页噪音消除 索引压缩 随机访问的索引结构 重要索引词单独索引 WEB检索系统效率优化 混合索引技术 倒排文件分块组织技术 倒排文件索引的缓存技术 混合索引技术 问题: 中文全文索引?什么是最佳的索引单位? 中文分词,歧义消除可以提高检索效果 词索引结合二元组(Bi-gram)索引 大规模文档集合,二元组索引的倒排索引词典膨胀迅速 分词单位过长,可能导致检索系统召回率下降 混合索引 文档:“…国家图书馆… ” 倒排文件分块组织技术 问题与背景: 检索算法执行中对磁盘上倒排表(posting list)的访问开销成为影响性能的重要因素 -索引压缩 -按文档编号增序组织 过滤空间向量模型-倒排表按索引词的词频降序组织,只读取和处理少量倒排表数据,而不影响检索效果 基本思想: 将倒排文件的倒排表数据分块存储, 块内数据项按文档编号增序排列,以利于高效数据压缩, 而在块间保持文档权值的降序组织,以求读取少量倒排表数据而得到检索结果,减少检索算法的执行时间 倒排文件分块组织技术-研究问题 倒排文件的检索性能模型 分块组织方式下的检索算法的执行时间分析 不同的分块组织方式对检索效率的影响 检索性能模型 文档模型 词语独立同分布,一篇文档则是在一个词典上随机进行词语选取的结果 Z(j) 序号为j的索引词出现的概率 L(j) 索引词j的倒排项数据长度 用户查询模型 Q(j) 索引词被查询概率 计算机系统性能参数 T(L) 磁盘系统读取长为L的一块连续数据需要的I/O时间 T(L)=α+β*L 分块组织方式 常规组织方式 分块组织方式 块内倒排表数据按文档号增序压缩保存,块间按权值降序保存 引入索引词i的分块因子ρ,有blocksize(j)=ρ(i,j)*L(i) 检索时,依次从前往后读入各个查询词的倒排表数据块 相关性权值由文档权值累加,算法正确性保证 此算法在|R|≥K时停止 分块组织方式-研究问题 在一定的文档模型和查询模型下,是否有|R|K? 分块检索算法能否读取少量数据,而达到|R|≥K,尽快结束? 第二个问题是:分块检索算法是否能减少执行时间? 算法执行时间T(Q)=Tb1+Tb2+Tc Tb1为读取倒排表数据的时间,Tb2为倒排表数据处理时间 ,Tc为结果集合中选取权值最大的K个元素的时间 第三个问题是:分块因子ρ的选择对检索算法效率的影响。 规定ρ的一个最小值ρmin,给高频索引词使用,随着索引词序号增加,ρ也相应增大,只到索引词的倒排项总长很小,ρ取1为止。 在索引词序号区间上,ρ按等宽的序号区间长度间隔增加 按几何级数来设定区间宽度,增加ρ值 倒排文件分块组织技术-小结 建立了一个倒排索引的检索性能模型 提出了一种分块组织倒排文件的方法 对该模型的分析和仿真实验研究,表明了在这一方法下检索算法的执行时间可以明显减少 在分块设计上,采用几何级数设定区间宽度比平均区间宽度效果要好,当分块因子ρmin取1/4,结合长查询下算法回退可以得到较好的性能。 倒排文件索引的缓存技术 问题与背景 缓存技术是提高系统性能和可扩展性的一种重要手段 搜索引擎检索系统中通常被研究的可缓存对象分为三种,即查询结果,布尔操作的中间结果,以及倒排文件 这种查询处理技术的不同,导致所产生的访问倒排文件数据序列性质的差异。 文献中对倒排文件缓存的研究,基本以固定大小的页面为单位,忽略了倒排文件访问数据是变长这一特点 缺乏替换策略、数据组织对缓存效率影响的分析 倒排文件索引的缓存技术-研究问题 负载时间、空间局部性? 缓存性能评估的指标如何
您可能关注的文档
- 指导老师王志湖.ppt
- 指日升投资周刊.pdf
- 招生简介《 长期课程》.doc
- 指标性研究机构参访和学习开发体验营.doc
- 指针逻辑基本运算的形式描述FormalcriptionElementary.pdf
- 指导老师胡凯杰.ppt
- 按欣赏指数排列.doc
- 按照形成的指标体系来设计测验题、问卷或观.ppt
- 按照课程标准,语文考试应该从拼音、识字、.ppt
- 挑战 - 挑战.pdf
- 2025年网络文学平台版权运营模式创新与版权保护体系构建.docx
- 数字藏品市场运营策略洞察:2025年市场风险与应对策略分析.docx
- 全球新能源汽车产业政策法规与市场前景白皮书.docx
- 工业互联网平台安全标准制定:安全防护与合规性监管策略.docx
- 剧本杀剧本创作审核标准2025年优化与行业自律.docx
- 2025年新能源电动巡逻车在城市安防中的应用对城市环境的影响分析.docx
- 全渠道零售案例精选:2025年行业创新实践报告.docx
- 2025年网约车司乘纠纷处理机制优化与行业可持续发展报告.docx
- 2025年宠物烘焙食品市场法规政策解读:合规经营与风险规避.docx
- 2025年宠物行业数据安全监管政策影响分析报告.docx
文档评论(0)