华中师范大学情报学真题笔记(信息检索原理 完全版).docVIP

华中师范大学情报学真题笔记(信息检索原理 完全版).doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索原理技术 1.1.1 信息:信息是事物发出的信号所包含的内容。 一次文献信息:作者以自己的研究成果为基础创作或撰写的、未经过加工的原始文献。(期刊论文、研究报告、专利说明书、会议论文、学位论文) 二次文献信息:对一次信息加工整理而成的文献。(目录、文摘、索引) 三次文献信息:对一二次信息综合、分析等深加工的产物。(评论、进展报告、述评、百科全书、年鉴、指南、期刊书目) 知识:人类的主观世界对客观世界的概括和反映,是大量有组织的信息,是关于实施和思想的有组织的陈述,提供某种思考的判断和某种实验的结果。 文献:是记录有知识的一切载体,即知识信息必须通过文献载体进行存储和传递。 1.3.1 检索系统包括物理构成和逻辑构成。 从物理构成的角度来考察,检索系统一般包括硬件、软件和数据库。 硬件:计算机检索系统采用的各种硬件设备的总称。包括具有一定性能的主计算机或服务器、检索系统的外围设备和在数据处理和传送中有关的其他设备。 软件:包括与计算机检索相关的各种系统软件及相关应用软件。 数据库:至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。; 逻辑构成:文献与数据的选择与抽取子系统(从外部信息源向系统输入,输入时要按照系统既定方针和用户需求进行选择)、词表子系统(分为完全的自然语言检索和后控自然语言检索)、标引子系统(按照一定的词表,对文献赋予标引词)、查寻子系统(把用户的需求,经过概念分析,转换成系统语言的词汇,并指出其逻辑关系的过程)、用户与系统交互子系统(检索系统向用户提供的实现其检索过程的手段)、匹配子系统(文献的标引记录和提问的检索策略进行对比并决定取舍) 2.2 布尔检索模型的概念:采用布尔代数和集合论的方法,用布尔表达式用户提问,通过对文献标识与提问式的逻辑运算来检索文献。逻辑运算符有三种:逻辑与、逻辑或、逻辑非。 优点:逻辑运算符较少,便于用户学习;模式较易构造,可以通过简单的关系来体现检索项的联系;布尔检索模型可以将复杂的检索过程以简单的检索式表达出来,通过逻辑运算符将概念间的逻辑关系体现出来,变成计算机可执行的运算,从而实现自动匹配的过程;检索提问式较灵活,方便修改。 缺点:布尔检索中关键词没有权重区别;检索结果的输出没有重要性排序;查全率很难控制;布尔检索要求用户具备诶很高的素质和语义提取能力。 3.3 无论是人工索引还是自动索引都经历了采集信息、建立数据库到标引信息、形成索引数据库的过程。 信息采集:有关机构和个人,根据一定目的,将系统内外各种形态的信息采出并汇集起来的过程。 传统的文献信息采集:主要通过人工采集如采购、索取、交换、检索、复制等手段来获得有关文献信息。 信息标引:通过对文献或信息的分析,选用确切检索标识,如类号、主题词、关键词、人名、地名等,用以反映该文献或信息资源内容的过程。 建立索引---索引包括索引款目、参照系统和索引款目导引标志。 索引款目由索引标目和索引地址构成。 索引标目又可以分为主标题和副标题。索引主标目揭示被索引概念的核心部分。副标目作用是使所用标目含义更为具体、专指。 索引的建立一般有以下的步骤:1、选题,建立主索引文件。2、对主索引关键词进行抽词倒排,建立目标格式文件。3、排序与归并。 3.6 倒排文档:主要按照某一属性(字段)的字符顺序存入数据库的全部记录,又称主文档。 顺排文档的检索,只要将用户的检索表达式与顺排文档中的文献记录依次比较,就可以判断是否又匹配的文献记录。 检索可以是顺序检索,也可以分块检索和折半检索。 顺序检索:从一个顺排文档的开头部分,依次查找文档中的所有信息,已找到文档中潜在的某一特定信息。 分块查找要进行两次查找。首先对按关键字的顺序将主文档分为若干大小适当的记录块,标记每个块的最后一个记录的关键字。查找时,将所要查找的记录在哪一块。 折半检索法按照检索关键字值得大小将检索范围分成二分之一,逐步缩小范围检索,知道查到所需要的信息。首先检查文档中间的记录,把中间记录的关键之同用户查询中的关键值比较,如果相匹配,那么中间的记录就是需要查找的记录。如果不匹配,进一步确定所要查找的关键字值在中间的元素的前面或后面。如果在前面,则文档后面的一般就可以忽略,再去检查剩余部分的中间元素,直到找到相关信息。 倒排文档:将主文档中的可检字段抽出,按某种顺序重新排列起来所形成的一种索引文档。 倒排文档的建立: (1)索引词选择。选择需要做索引的字段属性,抽出其中内容,并在其后附上记录号。 (2)对抽取的内容进行排序,便于归并相同内容。 (3)对相同内容进行归并,把合并后内容放入倒排文档的主键字段,统计每一数据的频次作为目长,把每一内容后的记录号顺序放于记录号集合字段。 倒排文档可以实现对文献的快速查找,只需检索索引就可以确定是哪些文

文档评论(0)

anma + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档