第三章信息检索系统第三章信检索系统息检索系统.ppt

第三章信息检索系统第三章信检索系统息检索系统.ppt

  1. 1、本文档共69页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章信息检索系统第三章信检索系统第三章信息检索系统第三章信息检索系统

5)维护 数据库投入运行后,必须定期进行维护与更新,以适应用户需求和文献生产状况的变化。 维护主要指对数据库系统硬件设备的维修、保养和对系统软件功能的修改与扩充。 更新主要指对文献库的数据内容进行添加和重新组织。 (6)书目数据库的建立和维护 全文数据库 全文数据库是一种存储文献全文或其中的主要部分的源数据库。 它最早出现于法律领域。 1961年第一个文献数据库建成并投入使用(即美国的“匹兹堡系统”中的法律全文数据库) 匹兹堡法律全文检索系统问世后,引起了律师们的浓厚兴趣。 1)按出版方式划分:一类是与印刷型文献平行出版的全文库,另一类是纯电子出版物,无相应的印刷型文本。 2)按存储内容划分,直接原文型和摘录型。 直接原文型:直接存储文献的正文,有时甚至还包括正文以外的其他信息,如脚注、参考文献目录、文摘等。 摘录型:原文经过压缩提炼的,改写成若干篇一定长度的摘录(不同于文摘)。 全文数据库的种类 3)按应用领域划分 法律法规全文库或条法库,如LEXIS、WESTLAW。 期刊文章全文库,如美国化学会原始期刊数据库(在BRS系统中)。 商情全文库,如英国Datasolve公司的市场新闻和研究报告全文库, 新闻消息全文库,如美国的NEXIS、NEWSNET 全文数据库的特点与用途 优点: 直接性。 详尽性。 快速。 标引方法简单。 检索语言多用自然语言,少数用受控语言。检索方法除使用布尔检索以外,位置检索占有相当突出的地位。 请举出你所使用过的全文检索系统 1、信息检索系统的逻辑构成以及各个部分之间的关系 2、标引系统主要的任务是什么? 3、书目数据库的结构如何? 4、磁带格式是什么?标准的磁带格式有何规定? 5、如何建造和维护一个数据库? 6、全文数据库的特点和用途是什么? 7、中文和西文文献的初始化处理有何不同? 8、以书目查询系统系统为例,是否均应设计成两个文件的组织方式?固定长方式是否没有用武之地了? 9、标引中如何赋予权重? * * 3 * 3 * 3 * 4 * 4 * 4 * 4 * 4 * 4 * 4 * 4 * 4 主文档(master file) 书目数据库中描述每篇文献的完整记录通常以线性排列方式存放在磁带或磁盘上。检索时,只能按其物理顺序读取这些记录及其中的字段。由于它存储有关于每篇文献的最完整信息,所以通常又把它称为主文档(master file)。 (2)文档的类型 倒排文档 所谓倒排档,就是把记录中一切可检字段或属性值(如著者名、主题词等)抽出,按某种顺序重新加以组织后所得到的一种文档。既可以按不同类型的字段组成不同的倒排档(如著者倒排档、主题词倒排档等),也可以把所有不同的字段组成一个混合倒排档。 (2)文档的类型 Documents are parsed to extract words (or stems) and these are saved with the Document ID. Now is the time for all good men to come to the aid of their country It was a dark and stormy night in the country manor. The time was past midnight After all document have been parsed the inverted file is sorted Multiple term entries for a single document are merged and frequency information added The file is commonly split into a Dictionary and a Postings file (3)文档的存贮结构 A固定格式、固定长字段 1)物理记录和逻辑记录相一致,可以理解为一个逻辑记录一个块。 2)每条记录中的字段数量、字段长度、子字段的长度以及排列位置顺序都是不变的。 3)物理块的大小必须依据逻辑记录的最大可能的长度来确定 。 4)优缺点: 优点:便于处理 缺点:造成空间的浪费,造成数据的遗失。 B固定格式、可变长 记录中字段数目和位置的排列是固定的,但各字段的长度是可变的。 一些早期的图书采购磁带格式采用这种方式,国际标准书号、订购号、书名项、出版项、单价、发票号、订购数,书商、订购日期 需要识别字段的开始、结束以及记录的结束,引入字段标识符、字段结束符、记录结束符。 (3)文档的存贮结构 C 可变格式、可变长 没有任何空间上的浪费。 记录头标区:固定长,24 目次区:有多个目次项和一个分隔符组成。每

您可能关注的文档

文档评论(0)

cxiongxchunj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档