- 1
- 0
- 约2.11万字
- 约 81页
- 2020-04-10 发布于天津
- 举报
* 4. 信息检索的相关概念(IR concepts) 信息检索可以看成计算机科学(Computer Science)和图书情报学(Library Info. Science)的交叉学科。以计算机为手段,处理信息对象,和语言学、认知科学等其他学科融合。 检索来自英文单词Retrieval,其本义是“获得与输入要求相匹配的输出”。和我们平时所理解的搜索意义上的检索不一样。 * 4. 信息检索的相关概念(IR concepts) 信息检索:IR不仅仅是搜索,IR系统也不仅仅是搜索引擎。 例1:返回与信息检索相关的网页——搜索引擎(Search Engine, SE) 例2:毛泽东的生日是哪天——问答系统(Question Answering, QA) 例3:返回联想PC的型号、配置、价格等——信息抽取(Information Extraction, IE) 例4:订阅有关NBA的新闻——信息过滤(Information Filtering)、信息推荐(Information Recommending) 狭义的IR通常是指Information Search,而广义的IR包含非常多的内容(SE, QA, IE, …)。本课程介绍的是广义的IR。 * Documents Stream User 1 Profile User 2 Profile Docs Filtered for User 2 Docs for User 1 4. 信息检索的相关概念(IR concepts) Filtering(过滤: 用户需求不变,push) * 4. 信息检索的相关概念(IR concepts) 用户需求(User Need,UN):用户需要获得的信息 严格地说,UN只存在于用户的内心,但是通常用文本来描述,如查找与2006世界杯相关的新闻,有时也称为主题(Topic)。 UN提交给检索系统时称为查询(Query),如2008奥运会,对同一个UN,不同人不同时候可以构造出不同的Query。Query在IR系统中往往还有内部表示。 * 4. 信息检索系统 * 4.信息检索系统的组成框架 * Docs Information Need Index Terms query Ranking match 4. 信息检索的相关概念——检索流程 * 4. 信息检索的相关概念(IR concepts) IR系统的组成部分—— 用户接口(User Interface):用户和IR系统的人机接口 输入查询(Query),返回排序后的结果文档(Ranked Docs)并对其进行可视化(Visualization),支持用户进行相关反馈(Feedback) 用户的两种任务:retrieval 或者browsing IR的两种模式:pull (ad hoc) 和push (filtering)。 Pull: 用户是主动的发起请求,在一个相对稳定的数据集合上进行查询。 Push:用户事先定义自己的兴趣,系统在不断到来的流动数据上进行操作,将满足用户兴趣的数据推送给用户 * 4. 信息检索的相关概念(IR concepts) 文档(Document):检索的对象 可以是文本,也可以是图像、视频、语音等多媒体文档,text retrieval/image retrieval/video retrieval/speech retrieval/multimedia retrieval 可以是无格式、半格式、有格式的 文档集合(Collection):所有待检索的文档构成的集合。也称为Repository,Corpus * 4. 信息检索的相关概念(IR concepts) 相关(relevant、相关度relevance) 相关取决于用户的判断,是一个主观概念,不同用户做出的判断很难保证一致,即使是同一用户在不同时期、不同环境下做出的判断也不尽相同。 * 4. 信息检索的相关概念(IR concepts) 定义“相关性”的两个角度 系统角度:系统输出结果,用户是信息的接受者。这种理解置用户于被动的地位,基于这种理解,研究的重心落在系统本身。主题相关性:检索系统检出的文档的主题即核心内容与用户的信息需求相匹配。系统角度相关并不和用户脱节。系统角度定义的主题相关性可以计算 用户角度:观察用户对检索结果的反应,是系统输出向用户需求的投射。相关性被认为是用户方面的属性。用户角度定义的相关目前仍然难以计算 现代信息检索研究中仍然主要采用系统角度定义的主题相关性概念,也强调考虑用户的认知因素 * 4. 信息检索的相关概念(IR concepts) 形式上说,信息检索中的相关度是一个函数R,输入是查询Q、文档D和文档集合C,返
原创力文档

文档评论(0)