智能信息技术基础-10信息检索.pptVIP

下载本文档

6
0
约8.85千字
约 66页
2018-02-13 发布于江西
举报
版权申诉

智能信息技术基础-10信息检索.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

智能信息技术基础-10信息检索

信息检索技术Information Retrieval Technique 封筠 Email：fengjun7171@ :6621/ User: Student.feng 08-04 Outline 一、信息检索技术基础二、WEB信息检索——搜索引擎三、图像检索技术信息检索技术基础一、信息检索的基本概念二、信息检索发展三、信息检索模型四、信息检索系统性能评价五、相关反馈和查询扩展六、信息检索当代技术一、信息检索的基本概念 1、定义 2、处理过程 3、信息检索与数据库检索 4、信息检索的相关性问题 1、定义知识的有序化识别和查找的过程。 1、信息检索是信息获取的一种主要方式。 2、信息检索萌芽于图书馆的参考工作。 3、信息检索是人类信息活动的高层次，包括存与取两个环节。 4、信息检索的本质是一种通讯。 5、信息检索是一个发展中的概念。信息检索“就是最终用户借助信息源(或知识源)、推理机，通过人-机、机-机或人-人等系统之间的交互联作，以期达到启迪的认知结构动态的建构过程”。 1、定义广义的信息检索: 是指将信息按一定的方式组织和存储起来, 并根据信息用户的需要找出有关信息的过程和技术。全称为“信息存储与检索” 。狭义的信息检索: 指该过程的后半部分,即从信息集合中找出所需要的信息的过程, 相当于人们通常所说的信息查询。 2、处理过程 2、处理过程用户的信息需求首先用查询的形式输入到检索系统中，检索系统将用户查询转换成内部表示的同时，与文档集合的内部表示进行比较匹配，输出一组与用户信息需求相关的文档。如果用户对结果不满意，可以适当调整查询并进行再次检索，系统通过相关反馈技术使检索结果尽量满足用户需求，如此反复进行，直到用户终止检索为止。另外，对于多媒体资源的视听特性的查询，仅有关键词查询还不够，用户还可以提交示例查询，如一幅图像或一段音乐。 3、信息检索与数据库检索数据检索是精确匹配，只要在众多检索出的对象中有一个差错的对象，就意味着检索失败。信息检索到对象可以不大精确。在检索的结果中，即使存在与用户查询稍许的偏差，也不能概称为检索失败。信息检索系统的主要目的就是检索出与用户查询相关的文档，尽量减少不相关的文档。信息检索的检索对象（文档集合）以及用户查询可以是非结构化的，而且具有语义模糊性；而数据检索系统处理的数据是具有良好定义的结构和语义。 4、信息检索的相关性问题 “相关性”(relevance)，是指信息检索系统针对用户的查询(query)，从文档集中检出的文档与查询之间的一种匹配关系。现代信息检索以自然语言文本为对象，从严格意义上讲，文档与查询之间不再是数据库检索中的那种简单的匹配关系。但“匹配”这一术语一直在使用，这里也接受这种说法。 4、信息检索的相关性问题定义：检索结果与用户需求一致性程度影响因素：用户信息需求的表达相关度判断的算法用户的主观判断手检相关性、机检相关性 4、信息检索的相关性问题系统相关性 (1) 词频方法 (2) 位置方法 (3) 引用率方法 (4) 点击率方法 (5) 分类或聚类用户相关性 4、信息检索的相关性问题当用户输入检索词时，搜索引擎去找那些检索词在文章（网页）中出现频率较高的，位置较重要的，再加上一些对检索词本身常用程度的加权，最后排出一个结果来(检索结果页面) 。早期的搜索引擎结果排序都是基于词频统计的，如Infoseek，Excite等，它们基本上是沿用了网络时代之前学术界的研究成果，工业界的主要精力放在处理大访问量和大数据量上，对相关性排序没有突破。词频统计其实根本没有利用任何跟网络有关的特性，是前网络时代的技术。 4、信息检索的相关性问题据关键词在文中出现的位置来判定文件的相关性。认为关键词出现得越靠前，文件的相关程度就越高。 4、信息检索的相关性问题 WEB中各页面之间的链接关系是一项可以利用的重要信息。基于这种信息的技术被称为链接分析技术。绝大部分链接分析算法都有共同的出发点：更多地被其他页面链接的页面是质量更好的页面，并且从更重要的页面出发的链接有更大的权重。这个循环定义可以通过迭代算法巧妙打破。　　最著名的链接分析算法是Stanford大学提出并应用到Google搜索引擎中的PageRank算法以及IBM用于CLEVER搜索引擎的HITS算法。　 4、信息检索的相关性问题分类：将一篇文章／文本自动的识别出来，按照先验的类别进行匹配，确定。聚类：将一组的文章／文本／信息进行相识性的比较，将比较相识的文章／文本／信息归为同一组的技术。模糊聚类：没有先验的聚类因子，完全按照算法来进行识别和类大小，类的多少，类的误差等都是