信息存储及检索第3章.ppt

  1. 1、本文档共153页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章 文本信息存储与检索 本章目录 第一节 引言 在用户需求的驱动下,信息检索始终处于动态演变的过程中。传统的手工检索采用人工匹配的方式,由检索人员对提问标识与文献标识进行比较,并做出文献选择。而计算机信息检索则是由计算机将输入的检索策略与系统中存储的信息特征标识及其逻辑组配关系进行类比、匹配的过程,它将人脑的过程显性化。 第一节 引言 无论是手工检索还是计算机检索,信息检索的过程实际上都是一个比较、匹配的过程,其本质是信息用户将自身的信息需求与信息集合进行匹配和选择。信息检索这一概念是基于这样的假设,即包含相关信息的文献或记录已经按照某种有利于检索的顺序组织起来了,因此为了实现有效的信息检索,首先需要对大量无序的信息进行收集、加工和存储,并用特定的标识系统描述信息获取的特征。在检索时,首先分析用户信息需求的内容,提取其中包含的概念或属性,并用与信息集合相同的标识系统将其表示出来,形成检索提问。如果检索提问与信息集合中信息的标识相一致,则属于检索“命中”,即找到了符合要求的信息。因此,计算机信息检索的基本原理仍是“匹配运算”,但是却不同于手工检索的“匹配运算”方式。 第二节 书目记录 3.2.1 书目记录结构 由美国国会图书馆主编的USMARC、国际图联主编的UNIMARC以及《中国机读目录格式》(CNMARC)都是对机读目录中格式的规定。其标准构成为:记录头标、地址目次区、数据字段区。 记录结构如下: 3.2.1 书目记录结构 (一)记录头标区 记录头标是间接标识书目实体本身的记录内容,共24位字符。每个记录的头标都包含有ISO2709定义的关于记录结构的数据和为ISO2709的特定形式而定义的几项数据元素:记录类型、目录级别、在层级中的位置、记录完整程度以及是完全采用还是部分采用ISBD规则。 3.2.1 书目记录结构 (二)地址目次区 地址目次区位于记录头标之后,由一个或多个款目构成,每个款目都包括三部分:三位数字表示的字段号、四位数字表示的数据字段长度、五位数字表示的字段起始字符位置。其具体结构如下: 3.2.1 书目记录结构 (三)数据字段区 由变长字段和变长字段的特殊形式——定长字段共同构成。数据字段形式有两种: (1)定长字段 00-字段为定长数据字段,也称数据(控制)字段,其结构如下: (2)变长字段 从010到999的所有字段均为变长数据字段,其结构如下: 3.2.1 书目记录结构 (四)记录分隔符 著录于每个MARC记录最后的专门符号,是该MARC记录结束的标志。 3.2.2 CNMARC数据字段区的构成 在CNMARC书目格式中,记录的字段首先根据其标识符的第一位数字划分成十大功能块(Block)。一个功能块可划分成若干个字段,一个字段又可划分成若干个子字段,而一个子字段通常是由数据元素(Data element)所组成。 3.2.2 CNMARC数据字段区的构成 (一)功能块 0-- 标识块:用于标识记录或出现在编目实体上的号码(如记录标识号、ISBN、ISSN等),设有20个字段。 1-- 编码信息块:用于描述文献的各个方面的定长数据元素(通常是编码数据),设有27个字段。 2-- 著录信息块:用于录入ISBD所规定的除附注项和文献标准编号与获得方式项以外的全部著录项目,设有10个字段。 3-- 附注块:用于对著录项目或检索点作进一步的陈述,设有35个字段。 4-- 款目连接块:用于揭示相关记录之间的层次关系、平行关系和时间关系,设有36个字段。 3.2.2 CNMARC数据字段区的构成 5-- 相关题名块:用于录入作为检索点的该文献的其他题名,设有18个字段。 6-- 主题分析块:用于录入既可以是词语又可以是符号的主题数据,设有21个字段。 7-- 知识责任块:用于录入需要建立检索点的个人、团体等责任者,设有11个字段。 8-- 国际使用块:用于录入国际上一致约定但又不适合在0--至7--字段处理的字段,设有6个字段。 9-- 国内使用块:原来CNMARC书目格式设有1个馆藏信息字段,但《新版中国机读目录格式使用手册》已将该字段废除。 3.2.2 CNMARC数据字段区的构成 (二)字段 001 记录标识号; 100 通用处理数据; 101 文献语种(当文献存在语言文字时); 120 编码数据字段:测绘制图资料——一般性特征(仅限于测绘制图资料); 123 编码数据字段:测绘制图资料——比例尺与坐标(仅限于测绘制图资料); 125 编码数据字段:录音制品与印刷乐谱(仅限于乐谱等文献); 191 编码数据字段:拓片(仅限于拓片资料); 200 题名与责任说明项(仅$a正题名为必备数据); 206 资料特殊细节

文档评论(0)

kehan123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档