合考试.pptVIP

下载本文档

0
0
约1.19万字
约 40页
2017-09-08 发布于湖北
举报
版权申诉

合考试.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

综合考试：基于用户反馈的个性化检索技术龚笔宏 2006-1 内容安排个性化检索如何获得反馈？如何使用反馈？如何评价反馈？ 1.个性化搜索个性化搜索(“personalized search”)的定义通用搜索引擎：将所有人一致认同的”相关度”认为是单个用户的相关度; 唯一的一个相关度计算方法 1.个性化搜索(2) 个性化搜索通常包含2个部分搜集用户的行为，挖掘并建立用户的档案（profile) 利用用户的档案完成所需功能根据个性化搜索所完成的功能划分过滤推荐(filter recommendation) 重排序 (Re-ranking ) 特殊搜索 (desktop search ; ftp search) 1.个性化搜索(3) 根据“搜集用户信息”策略的不同，又可进行如下划分用户参与用户指定所需信息类别用户指定相关网页用户指定相关词无用户参与 Context search（搜集用户上下文的相关信息） Web Usage mining Implicit /pseudo 用户反馈 1.个性化搜索(4) 1.个性化搜索(5) 1.个性化搜索(6) 客户端 vs.服务器端客户端优点缺点服务器端优点缺点 1.个性化搜索之相关反馈 1.个性化搜索之相关反馈相关反馈的优点：只需要用户对文档进行相关性判断，而隐藏了查询处理的细节将搜索任务分割成若干个容易被用户理解的部分提供了一种用户可控制的过程来改进检索结果所涉及的技术领域 2.如何获得反馈显式用户反馈(explicit feedback) 隐式用户反馈(implicit feedback) 伪用户反馈(Pseudo feedback) 2.1显式用户反馈一个前提是：用户在检索期间是有一个明确的检索目的，而这一目的不会变更如何显式获得用户反馈把检索结果按照相似度的大小排序之后返回给用户，用户显式的对结果进行标记实现简单，且能够保证得到的信息是来自用户的真实意图给用户增加了许多额外的负担，因此实用性大打折扣。 2.1 显式用户反馈(2)-主动反馈主动反馈(Active feedback) 在用户反馈前，对结果进行一些预处理并选择其中的部分文档集展示给用户进行反馈，以保证这些反馈文档能带来最大的信息增益 Top K（传统的显式用户反馈） Gapped Top K （间隔的挑选文档作为反馈） K cluster centroid（将初始检索结果集进行聚类，以聚类中心展示给用户进行反馈）。 2.2 隐式用户反馈隐反馈(implicit feedback) 从用户的日常行为(即日志）中分析得到一些有用的信息作为反馈来改进检索质量。常用的主要分析做法有关联规则挖掘聚类算法加权tf-idf 想法时间窗口各种的去躁降维方法语言模型几乎都是 heuristically 2.2 隐式用户反馈(3) 所有这些因素都同等有效么？不是的！不过所有的用户行为都是有效的反馈信息！经过关联性分析，“保存”，“拷贝”这2个行为于用户的兴趣并没有关系有很多因素会影响这些隐反馈的质量, 以“点击”为例 trust biased .排序高的文档会被用户多点击，即使并不相关。 quality biased. 点击还依赖于其他返回摘要的质量 2.3 伪反馈(pseudo feedback) 伪反馈假设排序靠前的n个文档为相关文档，将其作为反馈文档（伪反馈文档）进行计算好的更好，坏的更坏 2.3 伪反馈(2) 解决办法相关网页总是特别相似，先聚类后反馈选择“强”相关网页进行反馈（通过一些词频共现的分析，选择潜在强相关网页）· 3.如何使用反馈信息检索中，检索任务是将查询与文档进行比较得到排序结果而用户反馈的目的是，通过优化查询表示来改进检索结果不同的模型中，文档表示/查询表示/相似度计算都各异 VSM模型概率模型语言模型 3.1 文档向量模型VSM VSM中,文档以及查询都表示为n维向量空间中的一个向量。基本的检索问题描述为：判断2个向量之间的相似度用户反馈的主要思想：一个相关文档与其他相关文档较相似，与不相关文档不相似尽可能的把查询贴近相似文档 3.1文档向量模型(2) 最优化的查询应为 Modified query 3.1文档向量模型(3) 多种反馈算法结合起来以提高反馈的质量不同的反馈算法得到不同的新查询串，也就得到不同的结果集。那么将这些反馈算法结合到一起是否能够得到更好的结果集 ? 2－3种反馈算法结合到一起确实能够带来检索结果的大幅度提高，但是添加越多的反馈算法却不一定能够带来质量的提高 SVM分类算法来改进相关反馈 3.1文档向量模型(4) 优点: 简单直接从反馈文档