微软亚洲研究院-智能信息处理研究中心.DOC

下载文档

3
0
约2.39千字
约 4页
2018-11-27 发布于天津
举报
版权申诉
保障服务

微软亚洲研究院-智能信息处理研究中心.DOC

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

微软亚洲研究院-智能信息处理研究中心

智能信息处理实验室研究生文献阅读总结报告阅读人时间文献出处作者单位所属领域具体问题文献标题研究问题说明注：可简单的提及一下背景和动机，如果多篇文章的背景和动机相同的话，可以写一个；若研究背景一般人都十分普遍和熟悉，可简略提一下即可。相关工作介绍注：这部分主要是论文中的related work部分，主要是对已有工作的分类和总结。特别是要明确已有工作都存在哪些问题，适用的范围如何，这篇文章所要解决的主要问题是什么。本文方法介绍注：这部分不要将文中的内容拷贝下来，也无需全部翻译成中文。要求用尽可能简练的语言进行总结，而不是简单对原文的一种翻译，而一定要理解后用自己的话来描述。实验描述注：明确实验的目的和目标、实验数据来源、实验设计方法、评价度量，以及实验结论等。总结注：这部分主要是阅读者对文中内容经过自己的理解后得到的一些想法，例如有何体会，从中受到何种启发，文中的方法还存在哪些问题，自己还能提出什么样的改进思路，以及一些自己提出的可以继续探讨的问题等。样例阅读人梁婷婷时间 2008.2.20 文献出处 WWW2007 作者单位微软亚洲研究院所属领域信息检索具体问题搜索策略评估文献标题 A Large-scale Evaluation and Analysis of Personalized Search Strategies 研究问题说明个性化搜索已经成为一个研究火热的问题，人们也已经研究出了很多个性化搜索策略。进而产生的问题就是，是否个性化搜索策略对所有的用户、所有的查询都能呈现出同样好的搜索效果。相关工作介绍现有的一些个性化搜索策略主要是：让用户为搜索引擎提供个人兴趣信息，搜索引擎将搜索结果与用户兴趣进行相似性对比（一般是把它们表示成类别向量），从而给出更好的搜索结果。但是研究发现大量用户并不愿意主动提供个人兴趣信息。从用户的搜索历史中，自动学习出用户兴趣，建立用户兴趣文件（profile），分为短期和长期用户兴趣。基于超链接结构分析的个性化方法，如Personalized PageRank、Topic-Sensitive PageRank等。从一组相似用户中提取用户兴趣信息，如协同过滤方法。现有的一些研究发现，个性化搜索策略对不同的查询有不同的效果：并不是所有的查询都适合做个性化处理，对于少量模糊查询，现在的搜索引擎给出的排序结果就足够了。个性化搜索处理一些半模糊和模糊查询，会给出更高质量的排序结果，但对于清晰的查询，普通的搜索引擎会更好对于新鲜的查询，更适合使用近期历史数据分析；而对于重复的查询，更适合使用长期历史数据分析。结：并不是所有的查询都适合做个性化处理。不同的个性化策略对不同的查询有不同的效果对于不同的搜索历史和搜索上下文，个性化搜索策略会表现出不同的效果。本文贡献：本文主要就是针对这一问题，提出了一种评估框架，来评价基于查询日志的个性化搜索策略的性能。并且给出了５种个性化搜索策略，并用此评估框架加以评估。本文方法针对如何评估一个搜索策略的好坏问题，作者首先提出5种个性化搜索策略，个性化分值的计算方法： SP-Click：对于一个用户u和一个查询q，u过去提交过这个查询，并且曾经点击过很多网页，其中点击次数越多的网页就越相关（此方法的缺点就是当用户没有提交过此查询的时候就不适用了） SL-Profile：比较搜索结果类别向量和用户长期历史兴趣向量的相似性，其中长期兴趣向量是从用户历史点击数据中学习得到 SS-Profile：与上个类似，此处比较的是用户短期兴趣向量，即限制在一个session期间内 SLS-Profile：结合短期和长期用户兴趣 SG-Click：使用K最临近协同过滤的方法，用一组内相似用户的兴趣代表当前用户的兴趣本文的评估框架：对一个查询q，从MSN搜索引擎下载前50个搜索结果U，当前搜索结果rank序列为τ1。为U中的每个结果页xi计算它的个性化分值，进而产生一个新的rank序列τ2。利用Borda的ranking融合方法结合τ1和τ2，然后利用结合后的ranking重新排序U，得到最后的rank列表τ。τ即为查询q的最终个性化搜索结果列表。使用本文的评估方法对τ进行评估补充：提出了点击熵的概念，用来指示查询点击的多样性。某查询熵值大说明对于该查询，用户的点击并不集中，就有必要做个性化。实验：从MSN搜索日志获得的12天的搜索数据，从中排除那些没有产生任何点击的查询。结果与普通没有经过个性化的搜索对比评估：采用前人提出的Rank Scoring值和Average Rank值进行评估。对于每一种搜索策略最终都能计算出这