- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
I信息检索笔记
信息资源的概述
传统信息资源的概述
概念与特征
类型:
一类文献:原始文献
二类文献:对一类文献的加工整理,报道揭示一类文献,提供的是一类文献的线索和地址 (书目,索引,文献)
三类文献:来源于一类文献,有丰富的权威的资料,可以解决各种问题。如:百科全书,字典,词典,手册,年鉴,名录
数字信息资源
与传统信息资源相比具有的特征:
以多媒体为内容特征
内容复杂多样
更新速度快,时效性强
利用不受时空限制
具备检索系统
具备全方位的动态的信息服务功能
数字信息资源的 类型:
按性质和功能划分:
一次文献:原始文献
二次文献:参考数据库,搜素引擎,网资,导航等。
三次文献:元搜素引擎(关于搜素引擎的搜素引擎)
按载体划分:光盘,网络数据库,联机检索系统
(三)主要数字信息资源
1.参考型数据库:包含各种数据信息的来源和属性的数据库。包括:书目数据库,索引数据库,文献数据库
2.全文数据库:收录有原始文献全文的数据库
3.事实数据库 ;直接提供原始文献的数据库,分为数值数据库,指南数据库,术语数据库
4.电子图书
5电子报纸
6.搜索引擎/分类指南
7.网络学术资源学科导航:对各类信息资源进行筛选整理之后,按学科属性对其进行分类、组织。
第二章 信息检索概述
一.信息检索:
信息检索就是利用一定的检索工具,运用一定的检索技术和方法查找信息的过程。
二.信息检索的原理
1.利用计算机进行信息检索的前提和基础是信息的组织和贮存。没有贮存就没有检索对象。
2.信息的组织与贮存就是数据库的建立过程。在这一过程中,系统对收集到的信息进行概念分析(即找出能够表达主题的关键词),然后赋予其特征标识(这一过程也叫对信息内容进行标引),并按特定的编排方法将其组织起来,形成有序的具有可检性特征的数据库。
3.计算机进行信息检索的原理就是指用户和检索人员将能够表达其信息需求的检索式提交给检索系统,检索系统即自动将检索式与系统中的信息进行匹配,凡是信息特征标识和逻辑组配关系与用户检索式一致的,既未命中内容。这种“匹配”实际上就是一种字符串的类比运算。
三.信息检索语言(也即标识)
1.检索语言的概念与作用(1)检索语言是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。它是人与检索系统对话的基础。
信息
信息 抽 取
主题 标识
内容 概念 检索
存储 检索系统 结果
信息 信息 主题
标识
需求 概念
检索
(2)标引即对信息内容进行分析,并运用一定的语言和方法,根据信息内容的学科属性和其他特征赋予其标识,并以此作为信息组织、存储、检索依据的过程。
(3)标引过程:主题分析——标引——标引结果记录
狭义的对文章的标引:从上图可知,信息检索语言的作用:对文献的外部特征和内容进行多维描述,提供多种检索过程,以便用户从不同角度进行检索。
2.检索语言的类型:
分类检索语言
人工语言 主题检索语言
代码检索语言
a) 分类检索语言:将各种概念按学科类型进行系统 排列,并用分类号表示。
b) 主题检索语言:用于描述、存储、检索信息主题的受控词(规法化的词),按字母顺序排列。其选取依据为出现频率、标引频率、查找频率。
标题词语言
主题检索语言 单元词语言
叙词语言
? 叙词:经过词汇控制后,在信息组织中显示文献主题,在信息检索中构造检索提问式的一种检索词汇。它以语词的概念组配而不是字面组配为特征。又称为描述词、叙述词、主题词。
? 叙词法就是以叙词为标识符号,标引和检索信息的方法,可用复合词来表达主题概念,检索式是由多个叙词组成复合逻辑的组配,形成多种组合方式。
自然语言检索词:是从信息内容中直接抽取的,主要依赖计算机自动抽词完成。其中标识词包括:关键词、题名,作者,全文、引文、摘要。
限制性自然语言:对自然语言进行限制,只保留其中的重要词。
3.索引(也即标引)
检索语言就是索引语言,索引是信息标引的过程;索引是表明文献特征的信息。
(1)概念:索引就是对信息组织的过程。它包括分析信息内容和用索引语言或检索语言对信息内容进行描述。
部分索引结构举例:
索引标目 出处项
Information retrizeval p4, p10, p18
(内容分析检索)
音乐检索与利用 /李四—情报学报,2008(5),85-89
(题名索引)
新华文摘 2008(1),118架,189位
(定位位置检索)
(2) 索引的类型:
a. 按对
文档评论(0)