微软亚洲研究院-智能信息处理研究中心.DOC

微软亚洲研究院-智能信息处理研究中心.DOC

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
微软亚洲研究院-智能信息处理研究中心

智能信息处理实验室研究生文献阅读总结报告 阅 读 人 时 间 文献出处 作者单位 所属领域 具体问题 文献标题 研究问题说明 注:可简单的提及一下背景和动机,如果多篇文章的背景和动机相同的话,可以写一个;若研究背景一般人都十分普遍和熟悉,可简略提一下即可。 相关工作介绍 注:这部分主要是论文中的related work部分,主要是对已有工作的分类和总结。特别是要明确已有工作都存在哪些问题,适用的范围如何,这篇文章所要解决的主要问题是什么。 本文方法介绍 注:这部分不要将文中的内容拷贝下来,也无需全部翻译成中文。要求用尽可能简练的语言进行总结,而不是简单对原文的一种翻译,而一定要理解后用自己的话来描述。 实验描述 注:明确实验的目的和目标、实验数据来源、实验设计方法、评价度量,以及实验结论等。 总结 注:这部分主要是阅读者对文中内容经过自己的理解后得到的一些想法,例如有何体会,从中受到何种启发,文中的方法还存在哪些问题,自己还能提出什么样的改进思路,以及一些自己提出的可以继续探讨的问题等。 样 例 阅 读 人 梁婷婷 时 间 2008.2.20 文献出处 WWW2007 作者单位 微软亚洲研究院 所属领域 信息检索 具体问题 搜索策略评估 文献标题 A Large-scale Evaluation and Analysis of Personalized Search Strategies 研究问题说明 个性化搜索已经成为一个研究火热的问题,人们也已经研究出了很多个性化搜索策略。进而产生的问题就是,是否个性化搜索策略对所有的用户、所有的查询都能呈现出同样好的搜索效果。 相关工作介绍 现有的一些个性化搜索策略主要是: 让用户为搜索引擎提供个人兴趣信息,搜索引擎将搜索结果与用户兴趣进行相似性对比(一般是把它们表示成类别向量),从而给出更好的搜索结果。但是研究发现大量用户并不愿意主动提供个人兴趣信息。 从用户的搜索历史中,自动学习出用户兴趣,建立用户兴趣文件(profile),分为短期和长期用户兴趣。 基于超链接结构分析的个性化方法,如Personalized PageRank、Topic-Sensitive PageRank等。 从一组相似用户中提取用户兴趣信息,如协同过滤方法。 现有的一些研究发现,个性化搜索策略对不同的查询有不同的效果: 并不是所有的查询都适合做个性化处理,对于少量模糊查询,现在的搜索引擎给出的排序结果就足够了。 个性化搜索处理一些半模糊和模糊查询,会给出更高质量的排序结果,但对于清晰的查询,普通的搜索引擎会更好 对于新鲜的查询,更适合使用近期历史数据分析;而对于重复的查询,更适合使用长期历史数据分析。 结: 并不是所有的查询都适合做个性化处理。 不同的个性化策略对不同的查询有不同的效果 对于不同的搜索历史和搜索上下文,个性化搜索策略会表现出不同的效果。 本文贡献: 本文主要就是针对这一问题,提出了一种评估框架,来评价基于查询日志的个性化搜索策略的性能。并且给出了5种个性化搜索策略,并用此评估框架加以评估。 本文方法 针对如何评估一个搜索策略的好坏问题,作者首先提出5种个性化搜索策略,个性化分值的计算方法: SP-Click:对于一个用户u和一个查询q,u过去提交过这个查询,并且曾经点击过很多网页,其中点击次数越多的网页就越相关(此方法的缺点就是当用户没有提交过此查询的时候就不适用了) SL-Profile:比较搜索结果类别向量和用户长期历史兴趣向量的相似性,其中长期兴趣向量是从用户历史点击数据中学习得到 SS-Profile:与上个类似,此处比较的是用户短期兴趣向量,即限制在一个session期间内 SLS-Profile:结合短期和长期用户兴趣 SG-Click:使用K最临近协同过滤的方法,用一组内相似用户的兴趣代表当前用户的兴趣 本文的评估框架: 对一个查询q,从MSN搜索引擎下载前50个搜索结果U,当前搜索结果rank序列为τ1。 为U中的每个结果页xi计算它的个性化分值,进而产生一个新的rank序列τ2。 利用Borda的ranking融合方法结合τ1和τ2,然后利用结合后的ranking重新排序U,得到最后的rank列表τ。τ即为查询q的最终个性化搜索结果列表。 使用本文的评估方法对τ进行评估 补充: 提出了点击熵的概念,用来指示查询点击的多样性。某查询熵值大说明对于该查询,用户的点击并不集中,就有必要做个性化。 实验:从MSN搜索日志获得的12天的搜索数据,从中排除那些没有产生任何点击的查询。结果与普通没有经过个性化的搜索对比评估:采用前人提出的Rank Scoring值和Average Rank值进行评估。对于每一种搜索策略最终都能计算出这

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档