情报检索系统模型发展的研究.docVIP

下载本文档

7
0
约2.64千字
约 6页
2018-10-26 发布于福建
举报
版权申诉

情报检索系统模型发展的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

情报检索系统模型发展的研究

情报检索系统模型发展的研究　　摘要信息检索模型主要是对查询和文档进行相似度表示和计算的框架和方法。传统检索模型有布尔模型、概率模型、向量空间模型和模糊集模型等，现在已经发展到了新的阶段，具有坚实理论基础和明显优势的检索模型是研究的热点。　　关键词信息检索检索模型　　中图分类号：G354 文献标识码：A 　　信息检索模型是运用数学或其它的语言和工具，对信息检索的主要要素―查询和文档，及其之间的匹配程度―相似度进行表示和计算的框架和方法。它基于以下观点：文档和查询共有的词项越多，则认为这篇文档和该查询越相关。　　1布尔检索模型→加权布尔检索模型→扩展布尔检索模型　　布尔模型是信息检索中第一个被提出的模型，其表达提问的方式与人们的思维方式相近，人们习惯于采用此种模式进行检索查询。它侧重于结构化查询表达式，即通过AND、OR 和NOT 构造查询表达式，反映用户需求，并通过精确匹配来返回文档。布尔检索实际是通过对若干个文献集合的并、交、补运算回答用户提问的。布尔模型最显著的特点是将用户查询与文献标引进行逻辑的、而非数值的比较而获得检索结果。这种模型把复杂的检索过程简单化，将复杂的情报提问按其概念组面的逻辑关系描述出来，使机器根据事先确定的程序进行自动匹配，简化了运算。　　但是，布尔逻辑式的构造不易全面反映用户的需求，匹配标准存在某些不合理的地方，检索结果不能按照用户定义的重要性排序输出。针对这些缺陷，提出加权布尔模型，通过对标引词进行加权，解决了传统布尔检索的一些缺点，比如传统布尔模型的运算符在加权布尔模型中无法使用，为解决此问题，提出了扩展布尔模型，该模型通过对标引词加权值，同时将向量检索模型与布尔检索模型融为一体，克服了传统与加权布尔逻辑模型的缺陷。其扩展规模是传统布尔检索模型完全匹配的严格性和向量模型提问的无结构性的折中，在保持布尔逻辑检索的结构式提问的同时，吸纳了模糊检索和向量检索模型的长处。　　2概率模型→贝叶斯网络检索模型　　概率论可以用来计算查询和文档的相关性，概率模型通过计算文档与查询相关的概率作为相似度。这就使相关性排序问题降为概率论应用问题。概率模型基于以下论点：基于一个词项分别在相关文档和不相关文档中出现的频率来估计该词项的权重。概率模型完全基于概率论，采用严格的数学理论为依据和基础来进行检索决策，具有坚实的理论基础。它的主要缺点是增加存贮和计算资源的开销、参数估计难度较大、系统的检索性能提高不明显。　　贝叶斯网络检索模型是从传统的概率理论中分离出来的，以概率理论为基础，是概率检索模型的扩展。贝叶斯网络是一个带有概率注释的有向无环图，图中的点表示所要解决的问题中的变量。这种概率图模型能表示变量之间的联合概率分布，分析变量之间的相互关系，因而贝叶斯网络模型可以用来表示术语间的条件概率和概念语义，并对查询与文档间的相似度进行预测，从而实现基于语义概念的查询。尽管关于贝叶斯网的理论研究还很不完善，应用研究还处于起步阶段，但已通过不同的方式应用到了信息检索领域，随着技术的进步，贝叶斯网模型将发挥越来越重要的作用。　　3向量空间模型→隐性语义检索模型→本体向量空间模型　　向量空间模型是目前最为流行的信息检索模型之一。其通过使用空间的相似性来解决语义上的相似性，把文档和查询在高维空间中用向量表示出来，每一个维对应着文档集合中的一个词。　　向量空间模型最显著的缺陷是基于关键词的向量空间模型无法反应术语间的语义关系，为使处理水平从离散的关键词匹配深入到概念匹配的层次上，提出了隐性语义检索（ LSI）。　　LSI 可以看作是扩展的向量空间模型，其简化了计算的复杂性，但语义空间不够完整。本体为向量空间模型提供了更为丰富、详细的概念空间，涵盖了领域内的所有知识及关系。在本体的支持下，文档中语义相关的术语彼此间有了丰富的语义联系，如上下位关系，同义、近义、成员、属性等内在联系，每种关系的关联程度也不同。　　在获得丰富而详细的本体的前提下，对基于本体的向量空间模型定义如下：所有的文?n组成信息对象集合D = { di | 1≤i≤M} ，M 为信息对象的总数。根据向量空间模型，每条信息di都可以用一个特征向量v（ s） =[s1，s2，…，sN]来表示。si对应于本体中的实体ei，表示某个信息对象中术语ei的权重。本体向量空间模型有着良好的前景，但由于构建完善的本体难度太大，因而基于本体的向量空间模型仅在小范围有试用，如Gene Ontology。　　4模糊集检索模型→粗糙集检索模型　　模糊集合理论研究的是边界不明确的集合表示，其中心思想是把隶属函数和集中的元素结合在一起。该函数的取值在区间[0，1]上，0表示不隶属于该集合，1表示完全隶属于该集合，隶属值在0