网站大量收购独家精品文档,联系QQ:2885784924

全套电子课件:搜索引擎.ppt

  1. 1、本文档共548页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * 举例: * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 关于引用分析的研究要比链接分析早得多 * * 关于引用分析的研究要比链接分析早得多 * * 关于引用分析的研究要比链接分析早得多 排序技术是搜索引擎的绝密 Google目前所使用的排序技术,已经不再是简单的PageRank * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 对文档排序的效果? 事实证明,不是非常好。 虽然它提供了融合相关信息的方法,但是在大多数情况下,并没有这些信息,只能使用类似于idf权重的词项权值。 如果tf存在,对排序的性能会有显著作用。在排序时如果没有tf信息,绝大多数的有效度量方法会降低50%。 即如果使用二元独立模型排序代替最好的tf.idf排序,将在排序结果的最佳部分少看到50%的相关文档。 二元独立模型(Cont.) * BM25模型通过加入文档权值和查询项权值,拓展了二元独立模型的得分函数。 BM25在TREC检索实验上表现非常好,而且对包含网页搜索引擎在内的商业搜索引擎中的排序算法影响很大。 现在BM25的得分函数有很多变形,但最普通的形式如下: 其中,求和公式覆盖查询项中的所有词项,N、R、ni、ri和之前的描述一致,如果没有相关信息,那么r和R都被置为0;fi是词项i在文档中的频率;qfi是词项i在查询项中的频率;k1、k2、K都是经验设定的参数。 常量k1决定fi增加时tf部分的词项权值如何变化。如果ki=0,那么词项频率部分将被忽略,只有词项的存在与否会有所影响。如果k1很大,那么词项权重部分会随着fi线性增长。k1的典型值是1.2。 BM25排序算法 * 常量k2在查询项权重中具有类似作用,这个参数的典型数值范围是0到1000,即系统性能对k2的敏感性不如k1。这是因为查询词项的频率非常低,并且比文档词项频率变换小。 K是一个更加复杂的参数,用来利用文档长度归一化tf因子。具体地: 其中,b是一个参数,dl是文档长度,avdl是数据集中文档的平均长度。常量b控制长度归一化的影响,b=0对应于没有长度归一化。在TREC实验中,b=0.75被证明是有效的。 BM25排序算法(Cont.) * * 下表给出了不同词项出现次数的分值。 这说明词项“林肯”的重要性,即使只出现一次也使得分值发生重大变化; 将词项出现次数从25或者15减到1,对最终结果影响并不大; 同时也说明,一个包含很多次出现的单独词项的文档,会比同时包含两个查询词项的文档获得更高的分数。 BM25排序算法(Cont.) * 一般来说,在处理任何查询之前,词项权值的一些计算在索引阶段。 如果没有相关信息,计算一个文档的得分只是简单地包括加入查询项中匹配上的词项的权重。如果查询词项多次出现,即qf1,则会有一些较小的额外计算。 另外,BM25排序算法中的参数可以针对每种应用进行调节。 BM25模型是从将信息检索视为分类问题的模型中演化出来的一种有效的排序算法。这个模型关注于主题相关,并且显示地假设相关性是二元的。 BM25排序算法(Cont.) 概率模型小结 优点 文档可以按照他们相关概率递减的顺序来排序。 缺点 开始时需要猜想把文档分为相关和不相关的两个集合,一般来说很难 实际上这种模型没有考虑索引术语在文档中的频率(因为所有的权重都是二值的) 假设索引词独立 概率模型是否要比向量模型好还存在着争论,但现在向量模型使用的比较广泛。 * * * * * * * * * * * * LSI与其它方法的比较 * * 三个问题 给定矩阵X, 基于X可以问三类同文件检索密切有关的问题 术语i和j有多相似? 即术语的类比和聚类问题 文件i和j有多相似? 即文件的类比和聚类问题 术语i和文件j有多相关? 即术语和文件的关联问题 三个问题的答案 比较两个术语 做正向乘法 Xhat*XhatT=T*S*DT*D*S*TT=T*S2*TT=(TS)*(TS)T DT*D=I, 因为D已经是正交归一的 ,s=sT 矩阵乘积结果的第i行第j列表明了术语i和j的相似程度 比较两个文件 做“逆向”乘法 XhatT*Xhat=D*S*TT*T*S*DT=D*S2*DT=(SD)(SD)T TT*T=I, 因为T已经是正交归一的, s=sT 它的第i行第j列表明了文件i和j的相似程度 比较一个文件和一个术语 恰巧就是Xhat

文档评论(0)

pehalf + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7201060146000004

1亿VIP精品文档

相关文档