高性能检索子系统.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
混合索引技术 -混合索引实现 剔除 n 元重叠 把那些在 n 取不同值情况下重复被提取的 n 元组剔除 最后剩下的 n 元组按出现频次降序排列,为识别结果 第六十二页,共八十九页,2022年,8月28日 混合索引技术 -混合索引实现 扩展词典组织与分词 输入基本分次结果序列,找到序列中在扩展词典里的所有最长匹配词条 基本词典和扩展词典中的词典均按照整数编码进行存放 市 …… 大学 …… NULL 生 NULL 北京 NULL 第六十三页,共八十九页,2022年,8月28日 混合索引技术 -混合索引实现 扩展词典匹配查找算法 输入:基本分次结果词条序列(t1, t2, ……ti) 输出:最长匹配扩展词条 init_scoreboard(); 初始化匹配任务表 while (ti != EOF) { code = get_code(ti); 从编码三列表中取得 ti 的编码 for each task in scoreboard { ret = search_token(code); 测匹配任务追加一个词,是否结束? if ( ret == NULL ) { clear_task add_hit ; 得到一个匹配 } else update_task ; 根据检测结果更新匹配任务状态 } check_hit ;检测匹配结果,输出 } 第六十四页,共八十九页,2022年,8月28日 主要内容 检索系统基本技术 倒排文件性能模型 混合索引技术 倒排文件缓存机制 本章小结 第六十五页,共八十九页,2022年,8月28日 倒排文件缓存机制 搜索引擎检索系统中通常被研究的缓存对象 查询结果 用户查询具有很强的局部性,因此对查询结果进行缓存是可行的 布尔操作的中间结果 把布尔查询的中间结果作为缓存对象,并利用查询结果间的语义关系加速后续查询的执行 倒排文件 用户查询经过查询器执行,转换为对倒排文件数据的访问序列,这些数据也可以作为缓存的对象 第六十六页,共八十九页,2022年,8月28日 倒排文件缓存机制 倒排文件缓存 负载特性 缓存策略的选择 第六十七页,共八十九页,2022年,8月28日 倒排文件缓存机制 倒排文件缓存 负载特性 缓存策略的选择 第六十八页,共八十九页,2022年,8月28日 倒排文件性能模型 -倒排文件的概念 倒排文件(Inverted File) 是描述一个词项集合(terms)元素和一个文档集合(docs)元素对应关系的数据结构 词项:可以是英文的单词,也可以是中文的字或者词 terms={t1, t2, t3, …… tM} docs={d1, d2, d3, …… dN} M:词项集合的大小 N:文档集合的大小 第三十页,共八十九页,2022年,8月28日 倒排文件性能模型 -倒排文件的概念 M 词项总数 记录表(Posting Lists) 不同词项组成的索引 Vocbulary 每个词项出现过的文档集合 第三十一页,共八十九页,2022年,8月28日 倒排文件性能模型 -倒排文件的概念 几个相关的变量 sj = | PL(tj) | 词项 tj 所涉及的文档的个数 DF(tj) = sj / N 词项 tj 的文档频率 IDF(tj) = -lg DF(tj)? 倒置文档频率,值越小表示出现频率越高 第三十二页,共八十九页,2022年,8月28日 倒排文件性能模型 -倒排文件的概念 fi,j 第 j 个词项 tj 在第 i 个文档 di 中出现的次数 系统所有文档包含词项的总量(包括重复) 词项 tj 在所有文档中出现的频度 ITF(tj) = -lg TF(tj)? 倒置词频,越小表示出现频率越高 第三十三页,共八十九页,2022年,8月28日 倒排文件性能模型 -倒排文件的概念 M 词项总数 N 文档总数 sj p(i):倒排表长度分布 q1q2……qk 同时到达的查询 r

文档评论(0)

xiaoyao2022 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档