几种信息检索模型比较.docVIP

下载本文档

4
0
约3.6千字
约 4页
2017-05-06 发布于广东
举报
版权申诉

几种信息检索模型比较.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

几种信息检索模型比较.doc

　　几种信息检索模型比较 .L.编辑。摘要：对信息检索模型研究的主要内容和构建策略进行了描述，给出了几种常用的信息检索模型相关性算法，分析了它们的优缺点，并就存在的问题进行了探讨，总结了信息检索模型的研究现状和发展趋势。关键词：信息检索模型；相关性；查询；搜索引擎 Abstract:This article described the main contents and the construction strategy of the models of information retrieval,demonstrated a lot of methods in mon usages,odel of information retrieval.And in this article,the advantages and disadvantages s that is still existing have been researched.In addition,the current situation of this research and the development tendency of the model of information retrieval marizad in this article. Keyation retrieval models;Relativity;Inquiry;Search engine 当前，随着互联网的普及和网上信息的爆炸式增长，信息检索系统及其核心技术搜索引擎的性能和效率问题已成为人们研究和关注的焦点。影响一个搜索引擎系统的性能有很多因素，但最主要的是信息检索模型，其研究内容包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。本文从研究文档与用户查询“相关性”匹配的角度出发，对信息检索模型研究的主要内容和构建策略进行了详细的描述，并给出了几种常用的信息检索模型相关性算法，分析了它们的优缺点及存在的问题，总结了当前信息检索模型的研究现状和发展趋势，其目的在于提高信息检索、查询的性能和效率。一、构建信息检索模型的策略当前，构建信息检索模型的主要策略有以下两个：（一）通用的信息检索模型构建一个通用的信息检索模型，研究优化的匹配算法，提高查询速度、查全率和查准率，最大程度地满足一般用户的查询需求。（二）用户兴趣模型根据特定用户查询兴趣要求构建用户兴趣模型或共同兴趣模型，能够尽可能地满足特殊用户查询的需求。它可以构建一个适合行业或专业应用语义要求信息获取模型。如google就能推断用户的使用意图，提供动态的、即时的用户“个性化定制”信息，帮助用户快速、准确地定位到所需要的信息。二、常用的信息检索相关性算法（一）布尔模型布尔模型是基于特征项的严格匹配模型，文本查询的匹配规则遵循布尔运算的法则。用户可以根据检索项在文档中的布尔逻辑关系提交查询，搜索引擎则根据事先建立的倒排文件结构，确定查询结果。标准的布尔逻辑模型为二元逻辑，所搜索的文档要么与查询相关，要么与查询无关。查询结果一般不进行相关性排序。在布尔模型中，一个文档通过一个关键词条的集合来表示，这些词条都来自一个词典。在查询与文档匹配的过程中，主要看该文档中的词条是否满足查询条件。布尔模型用文档的检索状态值作为一种评价查询和文档相似性的一种方法。这里，首先定义关键词集合S，关键词为t1，t2，…，tn。这些关键词可以和逻辑操作符AND，OR和NOT形成不同的条件查询。如果得到条件表达式的值为True，该文档相对于此条查询的检索状态值为1；如果若干文档相对于此条查询的检索状态值都为1，则可以认为，这些文档与此用户的查询是相关的。布尔模型的主要优点有两点：一是实现起来比较容易，速度快，计算的代价相对较少。二是查询语言表达简单，用户可以使用任意复杂的查询表达式，易于表示同义关系(如：聋教育 OR特殊教育)和词组(如：计算机AND基础AND课程改革)。它的缺点是，由于所有检索到的与用户查询条件相关的文档具有相同的检索状态值，则不能对查询结果按照相关性进行排序；另外关键词也没有考虑权重的影响，缺乏定量分析和灵活性以及不能表述模糊匹配。而为了克服布尔型信息获取模型查询结果的无序性，在查询结果处理中引进了模糊逻辑运算，将所检索的数据库文档信息与用户的查询要求进行模糊逻辑比较，按照相关的优先次序排列查询结果。（二）向量空间模型向量空间模型把信息库中的文本以及用户的查询都表示成向量空间中的点(向量)，用它们之间夹角的余弦作为相似性度量。向量空间模型是现在的文本检索系统以及网络搜索引擎的基础。在向量空间模型中，信息检索系统如果涉及n个关键词Te