第五章信息检索系统的数据库.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章信息检索系统的数据库

第5章 信息检索系统的数据库 文字型数据库 数值型数据库 图象型数据库 5.1 文字型数据库 以文字形式存在的相关信息的集合 5.1.1 书目型数据库 特征:它本身并不直接向用户提供所需信息,而是提供其线索,起一种指引、搭桥作用 内容:压缩性存储文献主题和有助于查找文献的相关信息,即向用户提供机读形式的文摘、索引和目录 (1)书目数据库的产生 (2)书目数据库的内容 与纸印刷文摘索引刊物内容一样 根据加工处理不同,书目数据库又可细分为目录类数据库和文摘索引类数据库 (3)书目数据库的结构 数据库—文档—记录—字段 记录相当于纸印刷检索刊物中的著录款目,或文摘条目,由文献号、题名、作者、出版日期、语种、分类号、主题词及文摘等字段构成 书目型文档的逻辑结构包括线性结构和非线性结构(树形结构、网形结构),不同的逻辑结构可对应不同的存储结构 5.1.2 指南型数据库 又称名录字典型数据库、指示性数据库、事实数据库等,主要存储能够提供用户参考、给予用户指南的各类非文献信息 (1)指南型数据库的特点 给用户指示的不是文献,而是其他类型的实体 记录长,字段多 通常含有某些数值性字段,可进行算术运算和大小比较 主题检索作用较次要,名称检索更重要和流行 许多字段都可以按数字或字母顺序排序 可能具有某种较高级的“事实检索”功能 (2)指南型数据库的类型 按使用范围可分为: 内部使用型 公用型或联机服务型 按信息类型可分为: 人物传记数据库 公司名录数据库 基金指南库 技术标准指南库 软件数据库 产品指南库 (3)指南型数据库的结构 它兼有文献数据库和数值数据库的特点,通常设有主文档、倒排档、索引文档和数据字典 (4)指南型数据库的使用 检索的一般过程:用户键入要查询的人物、机构或事物名称,系统根据数据字典或机器词典,查找索引文档,然后进入倒排档中查得有关记录在主文档中的位置,最后得到有关的事实。 按行业分类检索、算术运算、排序输出、智能指南库 注意:它和传统检索工具的关系 它的内容完整性问题 5.1.3 全文型数据库 存储文献全文的机读数据库,一种高密集型数据库。可向用户提供检索全文中的任何一个词、句、段、节、章等功能 (1)全文型数据库的内容 (2)全文型数据库的特点和问题 特点:快速、直接、方便、详尽 问题:占用大量存储空间 录入和组织信息工作量大 不同介质、不同格式的文本转换问题 更新速度和检索查全的矛盾 收费价格偏高 (3)全文数据库的制作方式 数据库与印刷品无关 数据库与印刷品生产一体化 5.1.4 新闻报道型数据库 存储的是大量新闻消息类型的各种信息 特点: 新闻内容范围十分广泛 时间性强 更新极为迅速,来不及作索引和文摘 大多数文本在一定时间后就纳入脱机服务 联机检索系统要提供方便清晰的显示方式,使用户能浏览全文 5.2 数值型数据库 又称源数据库或事实数据库,其基本特征是存储自然数值,即它是机读数值数据的集合。其用户又称为最终用户。 5.2.1 数值型数据库的迅速增长 提供数值型数据,并能进行数值的运算推导,是数值信息的来源和定量分析的工具,是更高层次信息加工的产物 在整个科技进步基础结构中占有重要地位 其增长比书目型数据库快得多 源数据库及其服务是未来的浪潮 增长的技术原因是微机和数据库管理软件的发展 90%以上是属于商情方面的数据库 5.2.2 数值型数据库的内容 按内容形式,可分为纯数值型和文字—数值型 内容很丰富: 与自然科学有关的 与商业经营有关的 与产业、公司有关的 与社会科学有关的 与人类生活有关的 内容依赖于不同领域的专业知识,数据来源有间接直接之分,通过一定步骤构成数值型DBMS 5.2.3 数值型数据库的结构与特点 采用何种数据结构来存储数值数据,应考虑检索便利性和数值运算性 (1)数值型数据库的结构 聚集式数据(Macrodata),常采用多维矩阵形式或表格形式存储 散列式数据(Microdata),常采用单元形式存储 检索便利性的要求 数值运算性的要求 (2)数值型数据库的特点 必要工具 类型多样化 直观 便于运算 依赖专业知识 更新快 无标准化 安全问题 兼容问题 5.3 图象数据库 图象信息是人类认识世界及自身的重要源泉 图象数据库是供人们存储和检索图象或图形信息及其文字说明资料的一种源数据库,是数据库家族中的一支新军 主要应用领域: 图象检索与提供(传送) 基于图象的计算机辅助教学 计算机辅助诊断或鉴别 5.3.1 图象数据库的发展概况 50年代,采用分层存储符号的数据结构,通过标准元件的简单重复来得到图形 6

文档评论(0)

wuyoujun92 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档