基于用户隐反馈的搜索引擎评价方法.pptVIP

基于用户隐反馈的搜索引擎评价方法.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于用户隐反馈的搜索引擎评价方法

基于隐反馈的搜索引擎评价方法研究 博士生:何 靖 导 师:李晓明 提纲 研究背景 研究问题和意义 研究内容 研究方案 可能的贡献 问题背景 结果的生成和展示 问题背景 结果的生成和展示 用户的搜索行为 研究问题 高效地获取搜索用户的隐反馈信息,准确地对搜索引擎质量进行评价 隐反馈信息:可以从用户使用搜索引擎的行为中获取的特征,如提交的查询串及其修改,点击的URL,查询和点击的时间等 评价:获得度量搜索引擎质量的指标值,通过这些指标值可以比较不同搜索引擎及其组件的好坏 准确:获得搜索引擎的质量的指标值能够反映真实的情况 高效:能够通过比较少的查询次数,比较快地获得可靠的搜索引擎质量指标值 研究意义 搜索引擎评价的意义 用户:比较搜索引擎的好坏 研发人员:比较搜索引擎组件算法的好坏,从而指导发现和选择更好的算法 基于隐反馈的搜索引擎评价的意义 自动化:降低人力成本 个性化:对一个查询,可以区分不同用户的满意程度 理解用户行为、结果文档特征和用户满意程度之间的关联 研究内容 研究影响用户搜索满意程度的结果文档特征集合以及综合这些特征形成度量搜索引擎质量的指标的方法 研究从隐反馈中准确且高效地获取结果文档/展示元素特征的方法 相关性, … 相关性, 可读性…… 结果文档特征集合 0.8 0.1 0.9 0.7 0.4 0.5 0.75 0.2 0.1 0.33 0.2 0.9 相关性, … 相关性, 可读性…… 文档级别特征 0.8 0.1 0.9 0.7 0.4 0.5 0.725 综合结果文档特征,获得总体质量指标 0.75 0.2 0.1 0.33 0.2 0.9 相关性, … 相关性, 可读性…… 结果文档特征 0.8 0.1 0.9 0.7 0.4 0.5 从隐反馈获得文档级别特征 0.725 综合结果文档特征 获得总体质量指标 0.75 0.2 0.1 0.33 0.2 0.9 提纲 研究问题 研究意义 研究内容 研究方案 可能的贡献 研究方案:结果文档特征集合 文档相关性: rel(d,q) 文档满足信息需求的程度[Saracevic07] 几乎所有评价指标基于文档相关性[Voorhees 05] 展示元素的相关性: rel(s,q) 展示元素相关性会影响评价结果[Turpin09] 更加符合真实用户的满意程度? 多大程度影响评价结果? 文档展示元素的可读性: read(s) [Kanungo09] 文档的可读性: read(d) 研究方案:结果文档特征?综合质量指标 指标 二值指标: P@n, AP, R-prec[Voorhees05], bpref [Buckley04], etc. 多值指标: (n)DCG[Jarvelin02], RBP[Moffat08], etc. 偏好指标: ppref, wpref[Carterette08], etc. 指标的用户实验验证[Al-Maskari08, Huffman07, Allan05, Turpin06] 显著的弱相关 研究方案:结果文档特征?综合质量指标 基于文档相关性的基础指标P@N的解释 用户看到一个相关的结果,获得收益U 用户查看一个结果,耗费时间T 用户看了N个结果 耗费时间N * T 获得收益#(rel-doc above pos N) * U 单位时间收益 研究方案:结果文档特征?综合质量指标 考虑文档/展示元素的相关性/可读性 搜索引擎质量的评价 用户看到一个相关的结果,获得收益U 用户查看一个展示元素,需要时间T1(read(s),rel(s)) 用户点击并查看一个文档,需要时间T2(read(d), rel(d)) 用户看了N个结果 耗费时间=查看展示元素的时间+查看文档的时间 收益=查看相关文档获得的收益 研究方案:结果文档特征?综合质量指标 耗费时间 查看展示元素的时间 查看文档的时间 用户获益 查看相关文档的获益 综合指标 用户获益/耗费时间 研究方案: 隐反馈?结果文档特征 隐反馈信息 点击[Carterette07, Craswell08, Guo09a, Guo09b, Dupret08, Chapelle09, Dupret10, Zhu10] 查询修改[Dupret10] 停留时间 结果文档特征 文档相关性[Carterette07,Craswell08, Guo09a, Guo09b, Dupret08, Chapelle09, Dupret10, Zhu10] 展示元素的相关性[Chapelle09] 文档可读性 展示元素可读性 研究方案: 隐反馈?结果文档特征 采用的方法 监督学习 Ordinal regression[Carterette et al. NIPS07] 无监督学习 Gen

文档评论(0)

zhuliyan1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档