第二讲 数据库及检索方法介绍.ppt

  1. 1、本文档共84页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二讲 数据库及检索方法介绍.ppt

(一) 数据库检索概述; 数据库是计算机检索系统中存储的信息源,按一定的方式组织并储存,借助于检索系统随时为用户提供服务的信息的集合。 数据库本质的三个要素:相关数据、共同存取方式和一定的组织方式、共享。 通俗地说,数据库是以某一特定方式组织和存放的数据的仓库。;计算机信息检索系统的数据库,按照不同的划分方式可以分为不同的类型。 从记录形式(内容性质)的角度将数据库分为两大类: 文献型数据库 非文献型数据库;是一种能直接提供文献线索和文献原文的数据库 收集的记录是根据书刊、技术报告、学位论文、会议报告、专利、报刊新闻等加过工的一次或二次文献。;全文型数据库(一次文献) : 存贮文献全文或部分内容的数据库 目录型数据库(二次文献):存储图书目录、论文题录、文摘等书目线索的数据库 题录/文摘数据库 :存储和检索期刊论文外部特征??文献摘要信息的数据库 书目数据库:存储和检索书目信息的数据库;数据型数据库:是一种以自然数值形式表示、计算机可读的数据集合。如实验数据、化学分子式、价格等统计数据、科学实验数据、测量数据等。如:中国科学计量指标数据库。 图像型数据库:存贮有某些图象信息,如图片,云图, 工程设计图等. ;事实型数据库:也称指南型数据库,是一种存贮简单而独立存在的非文献信息,如机构、人物、产品、年代、地理位置、事件等,每个条目都是对一个事实确切、完整的描述。 按信息内容划分有人物数据库、机构名录数据库、产品或商品信息数据库、以及投资指南库、基金指南库等。; 术语型数据库:也称词语型数据库。专门存储揭示各类名词、术语、词语的形、音、义与使用方法、以及词义演变、发展等信息的检索工具。 目前多数术语型数据库大多是辞书、词典、百科全书等数字化版本。;数据库;不同类型数据库的结构不完全相同。 文献型数据库的结构层次: 字段 记录 文档; 数据库中最基本的信息单元,其实体是文献的著录项目。记录中的字段标识符一般由两个字母组成,如TI, AB, AU, PY, LA等.每个字段都是一条检索该记录的途径. 三种基本字段: 检索系统的存取号(Accession Number) 基本索引字段(Basic Index Fields) 辅助索引字段(Additional Index Fields);存取号 :计算机信息检索系统为该数据库的每一条记录规定的能被计算机识别的特定号码。在同一数据库中,每篇文献记录只有一个存取号。一般来讲,存取号由6—9位数字组成,出现在每条联机记录的左上角位置。 ;基本索引字段:又称主题字段,是数据库提供的字段检索默认值.用来表达文献内容特征的字段,如: 篇名字段(Title Field / TI) 文摘字段(Abstract Field / AB) 叙词字段(Descriptor Field / DE) ; 辅助索引字段(Additional Index Fields):用来表达文献外部特征的字段,如: 著者字段(Author Field / AU) 出版年字段( Publication Year Field / PY) 刊名字段(Journal Field / SO或JN) 语种字段(Language Field / LA) 文献类型字段(Document Type Field /DT) 辅助字段种类很多,且随数据库的不同而各有差异。; 几个不同字段的集合构成记录,一个数据库内的记录往往含有相同的字段。 每条记录相当于文摘型或题录型检索刊物的一条著录款目。 一条记录即一篇文献。;一条记录的格式:; 由若干相同类型或不同类型的记录组成。 一个数据库由若干个文档组成。 一个文档由大量的记录组成,而每个记录中又包含有若干字段,这就是文献数据库中的层次结构。 ;(二) 检索理论基础 ; 检索词是用户或检索人员给出的字、词、字符或短语,用于查找含有它(它们)的记录。 检索词分为两类:受控词和非受控词。 ;检索词;受控词:是事先规范化的检索语言,取自主题词表、叙词表、分类表等。如果数据库对数据采用了受控标引,并有机读式或印刷版主题词表时,应优先选用其中的受控词。 特 点:受控词的检索效率高,一旦选定适当的概念,系统就能检出这一概念的全部内容,而且,由于标引人员已事先解决了自然语言中的同义、近义关系,使检索相对容易。 但受控词不能及时反映新事物的发展,而且概念数量有限、结构复杂,不易为非专业人员掌握。;非受控词:非受控词是指非规范化的自然语言词汇,又称自由词。 特 点: 非受控词可以在一定程度上弥补受控词的不足,非受控词可以是任意选词,其专指性强,而且不需要熟悉词表,新产生的名词术语可以及

文档评论(0)

youngyu0329 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档