文献检索与科技论文写作课件_第二章 节 _计算机检索基本原理.ppt

文献检索与科技论文写作课件_第二章 节 _计算机检索基本原理.ppt

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文献检索与科技论文写作课件_第二章 节 _计算机检索基本原理.ppt

第二章 计算机检索基本原理;1计算机检索系统;1.2.2文献数据库类型(据数据库所含信息内容 );数值数据库:提供以数值方式表示信息的一种源数据库,其检索结果可能只是单一的值或一组数据。数值数据库能提供产品价格等数值信息,也可提供物质的物理化学性质、结构、频谱等数据。 事实数据库:自原始文献或社会调查中获得并经过处理的各种事实,如机构、人物、产品、资源等数据。常见的有指南数据库、产品数据库等。 概念数据库:库内存储各种名词术语或语言资料,如词典数据库、语料库等。 多媒体数据库:将各种类型的信息集中在CD—ROM上,是视频、音频、文字、图像、动画等的集合体,如一些互动性的百科全书。 ;1.2.3数据库的构成 ;DT::文献类型字段(Document Type)。 TC=:处理码字段(Treatment Code).表示论文的性质,A表示应用,X表示实验,T表示理论,等等 /AB:文摘字段(Abstract)。 /DE:叙词字段(Descriptor),选自叙词表、主题词表中的词。 /ID:自由标引词字段(Identifier),非系统词表中的词,由标引人员确定。 CC=:分类代码字段(Classification Code)。 对于不同检索系统、不同数据库来说,其记录格式、字段代码、字段数目可能不完全相同。 ;2)字段:是文献记录的基本单元。一条记录有若干个字段,一个字段有时还可分为几个子字段(Subfield)。在书目数据库中,一条记录应包含原始文献的篇名、作者、刊名、出版时间、分类号、文摘、主题词等字段。 数据库的字段可分为基本字段和辅助字段: 基本字段主要是描述文献内容特征的字段,如篇名、文 摘、叙词、自由标引词等字段; 辅助字段主要是描述文献外表特征的字段,如著者、机 构名称、语种、文献来源等字段。 ;3)文档(File):若干条逻辑记录构成的信息集合。文档 是书目数据库和文献检索系统中数据组织的基本形式。 根据数据库的内部结构,一个数据库至少包含一个顺排文档和一个倒排文档。 ; 顺排文档:是按文献记录的输入顺序(即文献序号)排列的文档。相当于印刷型检索工具的正文部分。 在顺排文档中,记录按顺序一个接一个地存放,一个存取号对应一条记录,存??号愈大,对应的记录就愈新。由于它存贮有记录的最完整的信息,所以,通常又把它称之为主文档(Master File)。 这种存贮方式决定了对记录的存取只能按顺序进行。如果在顺排文档中检索,对每个检索式都得按顺序从头到尾进行扫描,存贮的记录愈多,扫描的时间愈长,从而严重影响了检索的速度。 主要供用户输出和打印文献记录用。 ;倒排文档:把顺排文档中的标引词抽出,按标引词的字母顺序依次排列而成的文档。倒排文档实际上相当于印刷型检索工具中的辅助索引。 倒排文档与顺排文档的区别: 顺排文档以完整记录作为处理和检索的单元,倒排文档以记录中的字段作为处理和检索的单元。 ;2 计算机检索的基本原理与技术;2.2检索功能;1)Boolean Search(布尔逻辑检索);1)Boolean Search(布尔逻辑检索);1)Boolean Search(布尔逻辑检索);2)位置检索:;(W)与(nW)—— (W)算符是“word”或“with”的缩写,表示此算符两边的检索词词序不能颠倒,两个词之间可有一个空格、或一个标点符号、或一个连接号; (nW)则表示两个检索词之间最多嵌入n个词。; 位置算符; 位置算符;3)截词检索:*;?;分类: 按截词位置:前截断;后截断;中间截断 按截词方式:无限截词;有限截词;中间截词 ;前截断:将截词符放在词根前边,后方一致,表示在词根前方有有限个或无限个字符。 如*magnetic 能够检出含有magnetic、ctromagnetic、paramagnetic等词的记录。 后截断:将截词符放在词根后边,前方一致,表示在词根后方有有限个或无限个字符。 如metal*,能够检出含有metal、metals、metaled、metalist等词的记录。 中间截断:将截词符放在词的中间,词的前后方一致。 如colo*r,能够检出含有colour、color的记录。 ;无限截词:指允许截去的字符数量不限,也称开放式截断。如前截断和后截断 有限截词:允许截去有限个字符。如dye***(n*) ,能够检出含有dyer、dye、dyed、dyeing等词的记录。 中间截词:如中间截断。;4)限定字段检索:;comput

文档评论(0)

youngyu0329 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档