合考试.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
综合考试: 基于用户反馈的个性化 检索技术 龚笔宏 2006-1 内容安排 个性化检索 如何获得反馈? 如何使用反馈? 如何评价反馈? 1.个性化搜索 个性化搜索(“personalized search”)的定义 通用搜索引擎:将所有人一致认同的”相关度”认为是单个用户的相关度; 唯一的一个相关度计算方法 1.个性化搜索(2) 个性化搜索通常包含2个部分 搜集用户的行为,挖掘并建立用户的档案(profile) 利用用户的档案完成所需功能 根据个性化搜索所完成的功能划分 过滤推荐(filter recommendation) 重排序 (Re-ranking ) 特殊搜索 (desktop search ; ftp search) 1.个性化搜索(3) 根据“搜集用户信息”策略的不同,又可进行如下划分 用户参与 用户指定所需信息类别 用户指定相关网页 用户指定相关词 无用户参与 Context search(搜集用户上下文的相关信息) Web Usage mining Implicit /pseudo 用户反馈 1.个性化搜索(4) 1.个性化搜索(5) 1.个性化搜索(6) 客户端 vs.服务器端 客户端 优点 缺点 服务器端 优点 缺点 1.个性化搜索之 相关反馈 1.个性化搜索之 相关反馈 相关反馈的优点: 只需要用户对文档进行相关性判断,而隐藏了查询处理的细节 将搜索任务分割成若干个容易被用户理解的部分 提供了一种用户可控制的过程来改进检索结果 所涉及的技术领域 2.如何获得反馈 显式用户反馈(explicit feedback) 隐式用户反馈(implicit feedback) 伪用户反馈(Pseudo feedback) 2.1显式用户反馈 一个前提是:用户在检索期间是有一个明确的检索目的,而这一目的不会变更 如何显式获得用户反馈 把检索结果按照相似度的大小排序之后返回给用户 ,用户显式的对结果进行标记 实现简单,且能够保证得到的信息是来自用户的真实意图 给用户增加了许多额外的负担,因此实用性大打折扣。 2.1 显式用户反馈(2)-主动反馈 主动反馈(Active feedback) 在用户反馈前,对结果进行一些预处理并选择其中的部分文档集展示给用户进行反馈,以保证这些反馈文档能带来最大的信息增益 Top K(传统的显式用户反馈) Gapped Top K (间隔的挑选文档作为反馈) K cluster centroid(将初始检索结果集进行聚类,以聚类中心展示给用户进行反馈)。 2.2 隐式用户反馈 隐反馈(implicit feedback) 从用户的日常行为(即日志)中分析得到一些有用的信息作为反馈来改进检索质量。 常用的主要分析做法有 关联规则挖掘 聚类算法 加权tf-idf 想法 时间窗口 各种的去躁降维方法 语言模型 几乎都是 heuristically 2.2 隐式用户反馈(3) 所有这些因素都同等有效么? 不是的! 不过所有的用户行为都是有效的反馈信息! 经过关联性分析,“保存”,“拷贝”这2个行为于用户的兴趣并没有关系 有很多因素会影响这些隐反馈的质量, 以“点击”为例 trust biased .排序高的文档会被用户多点击,即使并不相关。 quality biased. 点击还依赖于其他返回摘要的质量 2.3 伪反馈(pseudo feedback) 伪反馈 假设排序靠前的n个文档为相关文档,将其作为反馈文档(伪反馈文档)进行计算 好的更好,坏的更坏 2.3 伪反馈(2) 解决办法 相关网页总是特别相似,先聚类后反馈 选择“强”相关网页进行反馈(通过一些词频共现的分析,选择潜在强相关网页)· 3.如何使用反馈 信息检索中,检索任务是将查询与文档进行比较得到排序结果 而用户反馈的目的是,通过优化查询表示来改进检索结果 不同的模型中,文档表示/查询表示/相似度计算都各异 VSM模型 概率模型 语言模型 3.1 文档向量模型VSM VSM中,文档以及查询都表示为n维向量空间中的一个向量。 基本的检索问题描述为:判断2个向量之间的相似度 用户反馈的主要思想: 一个相关文档与其他相关文档较相似,与不相关文档不相似 尽可能的把查询贴近相似文档 3.1文档向量模型(2) 最优化的查询应为 Modified query 3.1文档向量模型(3) 多种反馈算法结合起来以提高反馈的质量 不同的反馈算法得到不同的新查询串,也就得到不同的结果集。那么将这些反馈算法结合到一起是否能够得到更好的结果集 ? 2-3种反馈算法结合到一起确实能够带来检索结果的大幅度提高,但是添加越多的反馈算法却不一定能够带来质量的提高 SVM分类算法来改进相关反馈 3.1文档向量模型(4) 优点: 简单 直接从反馈文档

文档评论(0)

rovend + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档