智能信息技术基础-10信息检索.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
智能信息技术基础-10信息检索

信息检索技术 Information Retrieval Technique 封筠 Email:fengjun7171@ :6621/ User: Student.feng 08-04 Outline 一、信息检索技术基础 二、WEB信息检索——搜索引擎 三、图像检索技术 信息检索技术基础 一、信息检索的基本概念 二、信息检索发展 三、信息检索模型 四、信息检索系统性能评价 五、相关反馈和查询扩展 六、信息检索当代技术 一、信息检索的基本概念 1、定义 2、处理过程 3、信息检索与数据库检索 4、信息检索的相关性问题 1、 定义 知识的有序化识别和查找的过程。 1、信息检索是信息获取的一种主要方式。 2、信息检索萌芽于图书馆的参考工作。 3、信息检索是人类信息活动的高层次,包括存与取两个环节。 4、信息检索的本质是一种通讯。 5、信息检索是一个发展中的概念。 信息检索“就是最终用户借助信息源(或知识源)、推理机,通过人-机、机-机或人-人等系统之间的交互联作,以期达到启迪的认知结构动态的建构过程”。 1、 定义 广义的信息检索: 是指将信息按一定的方式组织和存储起来, 并根据信息用户的需要找出有关信息的过程和技术。全称为“信息存储与检索” 。 狭义的信息检索: 指该过程的后半部分,即从信息集合中找出所需要的信息的过程, 相当于人们通常所说的信息查询。 2、处理过程 2、处理过程 用户的信息需求首先用查询的形式输入到检索系统中,检索系统将用户查询转换成内部表示的同时,与文档集合的内部表示进行比较匹配,输出一组与用户信息需求相关的文档。如果用户对结果不满意,可以适当调整查询并进行再次检索,系统通过相关反馈技术使检索结果尽量满足用户需求,如此反复进行,直到用户终止检索为止。 另外,对于多媒体资源的视听特性的查询,仅有关键词查询还不够,用户还可以提交示例查询,如一幅图像或一段音乐。 3、信息检索与数据库检索 数据检索是精确匹配,只要在众多检索出的对象中有一个差错的对象,就意味着检索失败。信息检索到对象可以不大精确。在检索的结果中,即使存在与用户查询稍许的偏差,也不能概称为检索失败。信息检索系统的主要目的就是检索出与用户查询相关的文档,尽量减少不相关的文档。 信息检索的检索对象(文档集合)以及用户查询可以是非结构化的,而且具有语义模糊性;而数据检索系统处理的数据是具有良好定义的结构和语义。 4、信息检索的相关性问题 “相关性”(relevance),是指信息检索系统针对用户的查询(query),从文档集中检出的文档与查询之间的一种匹配关系。 现代信息检索以自然语言文本为对象,从严格意义上讲,文档与查询之间不再是数据库检索中的那种简单的匹配关系。但“匹配”这一术语一直在使用,这里也接受这种说法。 4、信息检索的相关性问题 定义:检索结果与用户需求一致性程度 影响因素: 用户信息需求的表达 相关度判断的算法 用户的主观判断 手检相关性、机检相关性 4、信息检索的相关性问题 系统相关性 (1) 词频方法 (2) 位置方法 (3) 引用率方法 (4) 点击率方法 (5) 分类或聚类 用户相关性 4、信息检索的相关性问题 当用户输入检索词时,搜索引擎去找那些检索词在文章(网页)中出现频率较高的,位置较重要的,再加上一些对检索词本身常用程度的加权,最后排出一个结果来(检索结果页面) 。 早期的搜索引擎结果排序都是基于词频统计的,如Infoseek,Excite等,它们基本上是沿用了网络时代之前学术界的研究成果,工业界的主要精力放在处理大访问量和大数据量上,对相关性排序没有突破。 词频统计其实根本没有利用任何跟网络有关的特性,是前网络时代的技术。 4、信息检索的相关性问题 据关键词在文中出现的位置来判定文件的相关性。认为关键词出现得越靠前,文件的相关程度就越高。 4、信息检索的相关性问题 WEB中各页面之间的链接关系是一项可以利用的重要信息。基于这种信息的技术被称为链接分析技术。绝大部分链接分析算法都有共同的出发点:更多地被其他页面链接的页面是质量更好的页面,并且从更重要的页面出发的链接有更大的权重。这个循环定义可以通过迭代算法巧妙打破。   最著名的链接分析算法是Stanford大学提出并应用到Google搜索引擎中的PageRank算法以及IBM用于CLEVER搜索引擎的HITS算法。   4、信息检索的相关性问题 分类:将一篇文章/文本自动的识别出来,按照先验的类别进行匹配,确定。 聚类:将一组的文章/文本/信息进行相识性的比较,将比较相识的文章/文本/信息归为同一组的技术。 模糊聚类:没有先验的聚类因子,完全按照算法来进行识别和类大小,类的多少,类的误差等都是

文档评论(0)

ligennv1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档