信息检索方法与技术_.ppt

  1. 1、本文档共80页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索方法与技术_.ppt

学科领域 信息检索同时被情报科学领域和计算机科学领域所使用。 学科领域 信息检索同时被情报科学领域和计算机科学领域所使用。 与信息检索相关的学科(1/3) 信息检索是一门多学科交叉的应用技术学科。 与信息检索相关的学科(2/3) 与信息检索相关的学科(3/3) 什么是信息 普遍认同的一个定义 信息普遍存在于自然界、人类社会和思维领域中,它是客观世界中各种事物变化和特征的反映,是客观事物之间相互作用和联系的表征,是客观事物经过感知或认识后的再现。 信息的特性 可识别性。信息是可以识别的,识别又可分为直接认别和间接识别,直接认别是指通过感官的识别,间接识别是指通过各种测试手段的识别。不同的信息源有不同的识别方法。 可存储性。信息是可以通过各种方法存储的。 可扩充性。信息随着时间的变化,将不断扩充。 可压缩性。人们对信息进行加工、整理、概括、归纳就可使之精练,从而浓缩。 可传递性。信息的可传递性是信息的本质特征。 可转换性。信息可以由一种形态转换成另一种形态。 特定范围有效性。信息在特定的范围内是有效的,否则是无效的。 信息资源的类型(1/2) 狭义的信息资源可以被看作是信息本身,所以对信息资源的分类应该与信息的分类基本一致。 按信息的表现形式划分 文献型信息源。是存储语言文字形式信息的各种载体的集合。文献型信息源是目前信息内容最丰富、最可靠的信息, 是人们使用最多的信息源。 非文献型信息源。包括电子信息源(数值型信息源、声像型信息源、多媒体信息源和实物信息源)及口头信息源。 按信息内容的加工程度划分 可分为零次信息源、一次信息源、二次信息源和三次信息源。 信息资源的类型(2/2) 按信息内容的保密程度划分 有公开信息源、半公开信息源和非公开信息源。 按信息内容的应用范围划分 分为科技信息源、经济信息源、管理信息源及生活信息源。 按载体形式划分 印刷型(以纸张为介质, 以铅印、油印、胶印、复印等手段记录信息的载体)、缩微型(以感光材料为介质,以缩微照相为手段记录信息的载体)、机读型(以磁性材料为载体,通过编码和程序设计,由计算机输入和输出的信息)、声像型(以电磁材料为载体,借助特殊设备,直接将声音和图像等信息记录下来的一种动态信息) 按信息传输形式划分 网络信息源(各种网络上的信息集合),非网络信息源(不用通信设施就能获得的信息集合) 什么是检索 检索(有时也称搜索) 检索是指从文献资料、网络信息等信息资源中查找到自己需要的信息或资料的过程。 传统文献检索(手工检索) 传统文献检索经常使用到的工具是索引卡片,即将文献资料的信息记录在索引卡片上。索引卡片上一般会记载文献的题名、作者、主题词、摘要等信息。 在查找文献资料时,先要去查找索引,找到其馆藏位置,然后索取资料。 网络检索(计算机检索) 在网络时代,我们无时无刻地进行着检索。在因特网上进行检索主要有两种方式:目录浏览和使用搜索引擎。 信息检索的概念(1/6) 信息检索(Information Retrieval, IR)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。 狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。 IR不仅仅是查询,IR系统也不仅仅是搜索引擎。 例1:返回与信息检索相关的网页?搜索引擎(Search Engine, SE) 例2:毛主席的生日是哪天? ?问答系统(Question Answering, QA) 例3:返回联想PC的型号、配置、价格等信息?信息抽取(Information Extraction, IE) 例4:订阅有关NBA的新闻?信息过滤(Information Filtering)、信息推荐(Information Recommending) 信息检索的概念(2/6) 也可以这样说,狭义的IR通常是指Information Search,而广义的IR包含非常多的内容(SE, QA, IE, …)。 用户需求(User Need, UN):用户需要获得的信息 严格地说,UN只存在于用户的内心,但是通常用文本来描述,如查找与2010世界杯相关的新闻,有时也称为主题(Topic) UN提交给检索系统时,称为查询式(Query)。 如2010 世界杯,对同一个UN,不同人不同时候可以构造出不同的Query 上述需求还可表示成2010 世界杯新闻 Query在IR系统中往往还有内部表示 信息检索的概念(3/6) 文档(Document):检索的对象 可以是文本,也可以是图像、视频、语音等多媒体文档,text retrieval/image retrieval/video retriev

文档评论(0)

000 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档