第八章相关排序与质量评估.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

收集用户反馈信息用户点击数(userhitnumber,UHN)对于一个查询q会得到很多检索结果网页p0,p1,p2,……,pn假定检索q在一天内被提交了m次定义检索q对应的一个网页p的UHN相关排序的一种实现方案第61页,共119页,星期日,2025年,2月5日上述的方法忽略了返回结果中URL的位置信息统计结果:47.3%的用户只访问搜索引擎返回的第一页,12.2%的用户会继续访问第二页一个结果在返回网页中的位置将会很大程度的影响用户点击的可能性采用补偿算法来弥补这个缺陷按照用户对每个返回页面访问的概率进行补偿相关排序的一种实现方案第62页,共119页,星期日,2025年,2月5日补偿因子定义表第63页,共119页,星期日,2025年,2月5日考虑长时期的用户评价考虑n+1天的数据WUD0,WUD1,……,WUDn存在的问题用户在不同的时间感兴趣的网页是不同的奥运前,用户关心的是奥运会的准备情况和参赛运动员情况奥运后,用户关心的事世界纪录打破的情况、各个国家获得的奖牌数和排名情况相关排序的一种实现方案第64页,共119页,星期日,2025年,2月5日衰减算法衰减系数kk值越大,先前的数据对结果的影响就越大k=0,表示历史数据不被考虑k=1,表示所有的历史数据都和现在的数据有相同的重要性对于新的网页,需要考虑补偿相关排序的一种实现方案第65页,共119页,星期日,2025年,2月5日计算最终的权重计算每个网页和查询q的相关度基本权值链接权值用户评价权值相关排序的一种实现方案第66页,共119页,星期日,2025年,2月5日该方法的优点几乎所有的网页拥有者,尤其是商业网站,期望他们的网页被排在搜索结果的前列如果忽略一个站点内部的链接,这就使得网站的作者很难通过超链接权值对搜索引擎进行欺骗用户评价也是一个容易被用来欺骗搜索引擎的特性相关排序的一种实现方案第67页,共119页,星期日,2025年,2月5日传统IR的相关排序技术链接分析与相关排序相关排序的一种实现方案搜索引擎系统质量评估主要内容第68页,共119页,星期日,2025年,2月5日评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值,或者是某项政策的效果等等信息检索评价则是指对信息检索系统的性能(主要是其满足用户信息需求的能力)进行评估的活动从信息检索系统诞生以来,对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量评价第69页,共119页,星期日,2025年,2月5日针对一个检索系统,可以从功能和性能两个方面对其进行分析评价功能评价可通过测试系统来判定是否支持某项功能,因此相对来说较容易性能评价对于检索系统的性能来说,除了系统的时间和空间因素之外,要求检索结果能够按照相关度进行排序信息检索的评价第70页,共119页,星期日,2025年,2月5日相关度理论假定:对于一个给定的文档集合和一个用户查询,存在并且只存在一个与该查询相关的文档集合检索系统的目标就在于检出相关文档而排除不相关文档相关度第71页,共119页,星期日,2025年,2月5日相关性是一种主观评价是不是正确的主题输入:“和服”;输出:“···咨询和服务···”由于分词错误,导致检索结果偏离主题是否满足用户特定的信息需求(informationneed)?时效性,是不是新的信息输入:“美国总统是谁”;输出:“克林顿”信息已经过时权威性,是否来自可靠的信息源相关性第72页,共119页,星期日,2025年,2月5日相关性不是二值评价,而是一个连续的量即使进行二值评价,很多时候也很难从人的立场上看,相关性是:主观的,依赖于特定用户的判断和情景相关的,依赖于用户的需求认知的,依赖于人的认知和行为能力时变的,随着时间而变化评价IR系统的困难第73页,共119页,星期日,2025年,2月5日检索性能的评价检索结果的准确度检索任务批处理查询交互式查询实验室环境下主要是批处理查询,具有良好的可重复性和可扩展性检索的评价第74页,共119页,星期日,2025年,2月5日GRE词汇精选考研毛主席语录PAIR:客户端个性化检索工具点击第75页,共119页,星期日,2025年,2月5日第76页,共119页,星期日,2025年,2月5日一个文档集合C。系统将从该集合中按照查询要求检出相关文档一组用户查询要求{q1,q2,…,qn}。每个查询要求qi描述了用户的信息需求对应每个用户查询要求的标准相关文档集{R1,R2,…,Rn}。该集

文档评论(0)

xiaolan118 + 关注
实名认证
文档贡献者

你好,我好,大家好!

版权声明书
用户编号:7140162041000002

1亿VIP精品文档

相关文档