- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索Information Retrieval (IR)
信息检索Information Retrieval (IR) 第一章 简介 信息检索( IR )定义及相关概念 IR和相关领域的关系 IR系统的建立 IR系统的评估 IR评价试验平台TREC 本课主要内容 IR抽象图 目的 = 在一个大的文档集合中找到和所需的信息 相关的文档 IR定义 信息检索(Information Retrieval,IR),是指将信息按一定的方式组织和存储起来,并利用一定的检索算法,借助于特定的检索工具、根据用户的需要从结构化或非结构化的数据中获取有关信息的过程。 发展的几个阶段 手工检索(早期,情报检索) 穿孔卡片检索(1950s) 计算机检索(面向主题,1960s) 联机检索(1970s,1980s) Web检索(1990s) 信息检索原理示意图 IR分类 按资源形式划分 1、书目信息检索系统 2、全文检索系统 3、多媒体信息检索系统 按服务功能划分 1、单纯检索服务系统 2、统计分析信息服务系统 3、决策支持系统 IR分类 按服务区域划分 1、单机检索系统 2、联机检索系统 3、网络检索系统 在这门课中,我们只讨论全文检索系统的形式。 IR和其他领域的关系 数据库(DB ),在DB系统中,要创建数据组织方案,这个方案定义了各种关系及关系内的属性,利用这些方案,系统可以对用户提问做出解释。例如,在DB内,可以定义如下的关系: 作者(书,名字) 其中,作者是关系的名字, 书和名字是这种关系的属性,分别对应着书的ID 和它的作者名,这只是定义的一部分。为了查找由“Knuth”编写的书,可以使用如下的SQL语句: SELECT book FROM author WHERE name= “Knuth” 问答系统(QA),两个系统中,问题回答的方式是不同的。在IR中,对问题的回答是间接的:鉴别关联的文档,然后用户寻找问题的直接答案。在问答系统中,系统提供直接的答案。 相关概念 文档(Document),是指包含各种信息的信息源,通常情况下,用户查询的问题的答案存在于此,它的表现形式可能是文本、网页、图片、音频、视频等。在这门课中,我们只讨论文本的形式。 询问(Query),表示用户所需要的信息,一般情况下,它可以用如下的形式表示:“查找和… …. 相关联的文档。” 关联(Relevance),信息检索的目的是寻找相关联的文档。通常情况下,在相关联的文档中,用户应该能够找到他们所需要的信息。可见,关联是用来判断是否某个文档能够为用户问题提供回答的。关联的概念是非常复杂的。关联是存在于C 和D 之间的通过E 进行判断的B中的A。其中, A = 测量区间,B = 关联方面(绝对关联), C = 文档,D = 上下文,在这里进行关联测量(包括需要的信息) E = 用户的判断 相关概念 文本形式,文本存在多种规范形式,通常包括非结构化(也称为纯文本)、半结构化和结构化文本。大多数情况下,文本被看作是半结构化。比如,一本书的说明书可能是如下的形式: ISBN: 0-201-12227-8 Author: Salton, Gerard Titre: Automatic text processing: the transformation, analysis, and retrieval of information by computer Editor: Addison-Wesley Date: 1989 … Content: Text Content 相关概念 切词(segmentation),或称分词,主要在中文信息处理中使用,即把一句话分成一个词的序列。 例如,“网络与分布式系统实验室”,分词为“网络/ 与/ 分布式/ 系统/ 实验室/”。 停用词(stop word),指文档中出现的连词,介词,冠词等并无太大意义的词。例如在英文中常用的停用词有the,a, it等;在中文中常见的有“是”,“的”,“地”等。通常这些词被放在一个列表中,称为停用词表(stoplist)。 索引词(keyword,标引词,关键词):可以用于指代文档内容的预选词语,一般为名词或名词词组。 组合词(compound words):由两个或两个以上的单词构成的词,也称为合成词,如:北京大学,建设银行等。 词干提取(stemming 英语文档处理):单、复数,人称,时态等 countries = country,interesting = interest Web检索实例:搜索引擎 搜索引擎(Search Engin
您可能关注的文档
- 2013版状元360人教版历史一轮复习课件 必修3 第15课 三民主义的形成和发展.ppt
- 2014 年第 9 期 总第 219 期.PDF
- 2014年北大情报学考研高效复习策略-状元笔记.pdf
- 2015-2016 学年第 2 学期教学任务下达正式方案.PDF
- 2016-2017 学年第 1 学期教学任务下达正式方案.PDF
- 2016年北京大学医学部306西医综合考研生理学复习笔记(六).pdf
- 2017人民大学社会医学与卫生事业管理专业考研复试分数线录取方法.pdf
- 2017年湖北省中小学生《生命安全教育》网络测试学生操作指.doc
- 2018 省考刷题小分队 1-7 期错题集.PDF
- 2中厚板生产02-21页-BD.pdf
文档评论(0)