第章 信息检索与服务.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第6章 信息检索与效劳6.1 信息检索技术6.1 信息检索技术(续)信息检索过程信息检索过程实际上涉及到三个重要的处理:文档集的逻辑表示查询的表示相似匹配及其排序对上述因素和检索过程建模〔抽象描述〕,产生各种不同的信息检索模型标引相关性判断表达式构造信息资源信息资源替代物需求替代物用户需求检索结果图6-1 信息检索系统的一般模型布尔检索模型的理论根底是布尔逻辑和集合理论布尔逻辑主要内容:命题逻辑与谓词逻辑布尔逻辑是数理逻辑的根底局部利用符号来表示逻辑中的各种概念建立了一系列的运算法那么,利用代数的方法研究逻辑问题布尔运算布尔逻辑运算符:“与〔AND〕〞、“或(OR)〞、“非(NOT)〞运算的定义 传统布尔检索模型 文献表示将文档表示成一个集合,集合中的每个元素都为一个二元变量,取值非“0〞即“1〞,表示该元素所代表的主题词是否包含在该篇文档之内。假设包括在文档中,那么元素取值为1,反之那么取0。 给定一个文献集合D,包含m篇文献,分别用d1,d2,d3……dm表示。再给出一个标引词集合T,包含n个标引词t1,t2,……,tn。假定对文献集D的描述完全是基于该标引词集合的,那么文献集D中任意一篇文献di就可以表示为〔di1,di2,……,din〕 传统布尔检索模型 查询表示 在布尔检索系统中,根据用户提出的检索需求,选取适当的检索标识,与布尔运算符“与〞、“或〞、“非〞共同构成与查询相符的检索提问式,也即相应的布尔表达式例如 :1) “飞碟〞2) “飞碟〞AND “美国〞3) “飞碟〞AND (“中国〞 OR (NOT “科幻小说〞))传统布尔检索模型 查询表示 布尔提问式q = t1 and〔t2 or not t3〕 q的主析取范式 〔t1 and t2 and t3〕or〔t1 and t2 and not t3〕or〔t1 and not t2 and not t3〕 q的简化形式qdnf 〔1,1,1〕 or 〔1,1,0〕 or 〔1,0,0〕,其中,〔1,1,1〕、〔1,1,0〕和〔1,0,0〕是qdnf的3个合取子项〔合取子项可用符号qcc表示〕 传统布尔检索模型 匹配函数菊池敏典算法 传统布尔检索模型 文献D1=(t1 ,t2 ,not t3)查询Q=t1 and t2 and not t3布尔检索例如传统布尔查询的评价 该模型结构简单、容易实现和快速检索。传统布尔查询的评价 布尔模型在检索系统的开发与应用中表现出的主要问题有:〔1〕准确匹配〔exact matching〕策略问题。布尔模型采用准确匹配策略,对检索过程中客观存在的一些不确定性情形绝对排斥,认为一篇文献对于某一提问要么是“相关的〞,要么是“不相关的〞。这种“非此即彼〞的二值判断标准严重影响到检索系统的性能改善,并带来其他一些相关问题。〔2〕布尔逻辑表达用户需求的能力问题。把用户的一个信息需求转换成一个恰当的布尔表达式,在很多情况下并不容易实现。传统布尔查询的评价 为了弥补这些缺陷,开展了一些别的检索模型,如向量空间、扩展布尔、概率检索和聚类模型。向量空间模型(Vector space model)介绍向量空间模型(VSM)的评价向量空间模型介绍1. 文献空间〔1〕文献空间的概念文献集合中的任一文献都可以表示为这个多维空间中的一个向量,这个空间就称为“文献空间〞在一个文献空间内,用向量D1来代表某一文献,那么该向量在这个文献空间各个轴上的分量就是相应的表述该文献的各个项的权重文献与空间点〔2〕标引词空间T3D3={ d31,d32, d33 }D1={d11,d12, d13 }T2D2={ d21,d22, d23 }T1图 三维文献空间向量空间模型介绍向量空间模型介绍2. 项权重 〔1〕词频 越重要的项分配越高的权值可以用词频来作为该项的权重〔用tf表示〕 〔2〕文献频率 假设存在一个文献集合,其中大局部的文献都包含了某一项,那么说明该项对某一主题的专指度较差,可能就不太重要 在设计项权重时,要考虑逆文献频率 〔用idf表示〕 向量空间模型介绍2. 项权重 〔3〕权重的标准化处理 为了抵消由篇幅带来的不同影响,经常要对项权重进行标准化处理在各种标准化方法中,余弦标准是一种常用、有效的方法:tf×idf权重/文献向量的欧氏长度 向量空间模型介绍3.文献向量与查询向量的匹配 匹配函数利用向量的内积运算,得到文献向量Di与查询向量q之间的相似度 Sim(Di,q)=Di?q简单存在的一个主要的缺乏是它忽略了项之间存在一些相互联系的事实。通常,需要引入一些特别的方法来改进这个相似度计算公式,使得其能够考虑到项的相互联系这一重要因素相似度的计算内积相似度运算余弦相似度“距离〞相似度运算等等向量空间模型的评价优点简单,功能却非常强大能将非结构化的文献

文档评论(0)

189****5087 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7102116031000022
认证主体仪征市思诚信息技术服务部
IP属地江苏
统一社会信用代码/组织机构代码
92321081MA278RWX8D

1亿VIP精品文档

相关文档