- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第一章
1.2信息检索的原理
就是将特定的信息需求与存储在检索系统的信息标识进行异同的比较与匹配,选取两者相符或部分相符的信息予以输出。无论是手工检索还是计算机检索,其基本原理都是一样的。即检索系统对所要存储的信息,按照其外部特征和内部特征进行描述并赋予特征标识,然后进入系统;检索时,将所需信息特征标识与所存信息的特征标识进行比较。凡是两边标识一致的,就将具有这些标识的信息从检索系统中输出。
包含信息存储和信息获取两个环节。
(书本上的P14)
1.3 信息检索系统(手绘P17)
1.3.2 逻辑构成
一个完整的信息检索系统通常由以下几个功能模块组成:信息选择子系统、标引子系统、建库子系统、词表管理子系统、用户接口子系统、提问处理子系统。
1.信息选择子系统
根据系统的目标和服务对象的需要,确定信息收集范围,并广泛地、定期地采集各种信息源,为系统提供充足而适用的信息。
2.标引子系统
将收录的信息源利用检索语言表达和组织,并赋予检索标识的过程。
3.词表管理子系统
管理维护系统中已有的词表,使它与标引、建库等子系统相连接,支持用户查询操作,从提、对话或其他文本中采集新的词汇信息,并输出各种形式的词汇数据或词表产品。
4.提问处理子系统
专门负责处理用户输入的提问式,将提问式中的检索元和算符区分,并转换成系统内部的可接受的命令方式。在对提问进行转换后,与数据库中存储的数据进行比较运算,然后,把运算结果输出给用户。
5.用户接口子系统
承担用户与系统之间的交流功能。通常由用户模型、信息显示、命令语言和反馈机制等部分构成。
6.建库子系统
建立和维护可直接用于检索的数据库,包括系统所用的各索引文档。其工作流程主要包括数据录入、错误检查与处理、数据格式转换、生成并定期更新各种文档。
1.4 信息检索方法
1)顺查法:是指按照时间的顺序,由远及近地利用检索系统进行信息检索的方法。这种方法能收集到某一课题的系统信息,适用于较大课题的检索。(查全率高)
2)倒查法:是由近及远,从新到旧,逆着时间的顺序利用检索工具进行检索的方法。此法的重点是放在近期信息上。使用这种方法可以最快地获得最新资料。(新)
3)抽查法:是指针对项目的特点,选择有关该项目的信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。(准)
3. 追溯法
也称为回溯检索法、引文法、引证法,是跟踪查找的方式,以信息后面所附的参考文献为线索,逐一追溯查找相关信息的方法,此方法有助于对课题的主题背景和立论依据等内容有更深的理解。
获得的信息的针对性强,适合没有检索工具或检索工具不齐备的情况。
由于引证信息间关系的模糊性和非相关性所引起的“噪声”,该方法的查全率不高。
第二章(理解)
2.1
传统的检索语言:表达一系列概括文献信息内容的概念及其相关关系的概念标识系统。
检索语言概念:由词汇和语法组成。
词汇是登录在类表、词表中的全部标识,一个标识就是它的语词,分类表、词表是它的词典。
语法是如何创造和运用那些登录在类表、词表中的标识来正确地表达信息内容和用户信息需求,以有效地实现信息检索的一整套规则。
2.1.2 功能
(1)对信息的内容及其形式特征(主题)加以标引,保证不同的标引人员表达信息的一致性;
(2)对主题相同及主题相关的信息予以集中或揭示其相关性;
(3)将大量信息系统化、组织化,便于检索人员按照一定的排列次序进行有序化的管理;
(4)方便标引语言和检索用语的相符性比较,提高检索效率。
按标识组合的使用的方法不同
先组式:表达信息主题概念的标识在编表时已固定组配好,例:体系分类法、标题词法
后组式:指在词表编制和标引信息时不规定表达主题标识的组配关系,在检索时再根据需要将各个标识进行组配。例:叙词语言、单元词语言。
散组式:指在词表中不组配复杂的主题概念,在标引阶段将表达主题概念的若干标识,根据一定的规则组配在一起。例:《冒号分类法》。
2.2.1 概念逻辑
概念逻辑的方法
概念的划分与概括(分类):利用概念内涵由反映事物本质属性的概念因素构成,概念因素的增加或减少可以形成新的概念,概念内涵与外延成反变关系等性质,对概念进行划分或概括,形成更为专指或更为泛指的新概念,用以区别事物。内涵(抽象)
概念的分析与综合(组配):利用在概念的交叉关系中两个概念外延的相同部分形成一个新概念,其内涵等于原来两个概念内涵之和,并且它与原来两个概念具有隶属关系的这种性质,进一步发展为将一个内涵较深的概念分解为两个或者两个以上内涵较浅的概念,以及将两个或两个以上内涵较浅的概念合成为一个内涵较深的概念的一种方法。外延(侧重个体)
2.3.1 分类检索语言概述
分类检索语言的概念指用标记符号(分类号)来揭示、表达信息内容,依据知识分类
文档评论(0)