信息检索应用研究现状.docVIP

下载本文档

5
0
约1.2万字
约 8页
2016-06-27 发布于安徽
举报
版权申诉

信息检索应用研究现状.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

引言信息检索的目标是“所得即所需”(What you Get Is What You Want)。一个具体的体现就是：不同的用户在使用同样查询的时候可能获得不同的结果；更进一步，同一个用户在不同时间或者不同地点发出同样的查询可能获得不同的结果。例如，同一个用户对“java”信息的需求：在工作时间希望得到有关编程语言java的相关文档，在休息时间希望得到有关java岛的旅游信息。为了达到这样的目的，检索系统需要充分地理解并掌握检索活动的主体（用户）和客体（资源）。面对这样的挑战，人们一方面在信息资源端做工作，提出了语义网（Semantic Web，也称为语义Web）的概念，使得检索系统能够更好地理解内容，从而使检索结果更符合检索的条件；另一方面是在用户端做工作，通过各种手段获得用户的特征信息并进行用户建模，使用用户个性化信息来修正查询条件，从而改善检索结果。这两个方面的研究对达到“所得即所需”的目标起到了很大的推动作用。尽管语义网和用户建模技术极大地提高了检索系统的智能化、个性化水平，但是，人们也已经意识到，将资源和用户分开来考虑，难以达到“所得即所需”的目标。必须用系统的观点来看待信息检索活动，也就是说，用户检索的结果应该是特定“环境”下的结果，这个环境就是检索过程的上下文（context）(Contextual Information Retrieval,CIR)。 Word Net是Princeton大学的心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。在Word Net2.1中，上下文（context）被定义如下：１）语言学上下文，即在一个语言单位附近的片断，用以帮助解释该语言单位。２）环境，即一种情形或事件发生于其中的环境和背景。信息检索领域中，上下文最初是指“自然语言处理中的文档片段”，专门用于自然语言学中指代短语或句子在实际应用中的语言环境。它在自然语言处理中的价值体现在两个方面：一方面，在自然语言知识获取的过程中，上下文是知识获取的来源，在相应推理机制下，上下文本身就是知识；另一方面，在自然语言处理的应用问题解决过程中，上下文扮演着解决问题所需信息和资源提供者的重要角色。从20世纪中期开始发展的信息检索系统，基本上是千人一面(one size fits all)，不同用户提出同一查询，得到的答案完全相同。这种模式带来的最大问题就是不够人性化，难以准确地满足不同用户的个性化需求。所以，人们最先关注的是和用户有关的上下文，即把用户有关的信息引入检索系统以满足用户的“所得即所需”。文献[6]于2000年总结的Web搜索中的上下文信息主要包括和用户查询意图以及用户查询表达相关的信息。文献[7]也指出上下文和个性化检索紧密相关，用来帮助提高用户检索体验，需要理解每一个用户查找信息的模式习惯、用户目标，以及信息本身。然而，对信息检索系统而言，可利用的上下文并不仅限于此。2002年9月在Massachusetts Amherst大学智能信息检索中心（the Center for Intelligent Information Retrieval）１Contextual Information Retrieval,CIR)就是把有关用户、查询的上下文知识和信息检索技术融合在一起，统一组织在一个整体框架内，以向用户提供最适合用户需求的检索信息。随着人们对CIR的关注，2003年第12届TREC（Text Retrieval Conference）国际会议第一次增加了HARD评测（High Accuracy Retrieval from Documents Track）HARD评测的目的是考察用户及其相关信息对检索过程和检索结果评估的影响，即考察信息检索过程中上下文（如用户地域特点、文档风格等上下文信息）对信息检索性能的影响。 2004年第１届IRiX（Information Retrieval in Context27届SIGIR上举行，并一举成为SIGIR2004上参会人数最多、最受人关注的研讨会。该研讨会的总目标是如何在信息检索过程中考虑上下文因素以提高用户信息需求满意度。在该研讨会上，信息检索领域中的上下文定义如下。定义2（上下文，Context）Web文档链接内容的Page Rank技术、针对用户访问历史记录的Web日志分析技术等，并取得了一系列重要成果。这为人们进一步挖掘可用上下文以帮助提高检索效果树立了信心，指明了方向。在2007年欧洲信息检索大会上（European Conference On Information Retrieval,ECIR）Yahoo公司新兴搜索技术(Emerging Search Technology)部门的Andrei Broder指出上下文信息不仅在