- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[高等教育]第一篇 文献信息检索概论 第二章 信息检索基础
计算机检索的基本原理 计算机检索如同手工检索一样,都需要首先将文献信息进行整理排序,然后按照用户的要求从检索工具(手工检索)或文档(计算机检索)中找出合适的信息。因此为了使计算机能够工作必须:(1)编制文档,即通过文献压缩整理而成的二次文献,按一定的规律组成的信息集合;(2)把用户的要求翻译成计算机能理解的语言即编制提问逻辑式;(3)按照一定的检索程序检出文献。 信息存贮与检索是信息学中最活跃的研究分支之一,检索理论研究近年发展非常迅速,涉及的问题有:检索系统、检索策略及其设计、检索技术及其实现等。检索技术及其实现、检索策略及其设计和描述检索效果的参数于下一节简介。 例如, 对“微藻生长因子”这一课题来说,检索策略可编为: (海藻+藻类+微藻)*生长()因子? ? (algae+algal+microalgal) * growth()factor? ? 实检后调整(考虑提高检准率)、优化(低频词和关键词前置)为: (microalgal+algae+algal)(s)growth()factor? ? (microalgal+algae+algal)(3n)growth()factor? ? 又如,对“图象理解专家系统”这一课题,检索策略可编制为: IMAGE()UNDERSTAND???*(EXPERT()SYSTEM? ?+ARTIFICIAL()INTELLIGEN?? 3.描述检索效果的参数 主要有:查全率(recall factor)、查准率(也称适中率,Pertinency factor) 、漏检率(omission factor) 、 误检率( 也叫检索噪音, noise factor)以及新颖率、检索速度等。 设n为检索系统中文献总量,m为检索输出的文献量,a为n中与检索课题有关的 文献量,b为m中与检索课题有关的文献量(检准文献量),则n、m、a、b之间的关系如图1.4所示。 令R表示查全率、P表示查准率、M表示漏检率、N表示误检率,则R、P、M、N定义如下: R=b/a*100% P=b/m*100% M=(1-b/a)*100%=100%-R N=(1-b/m)*100%=100%-P 最理想的检索效果是M、N均为0,即R、P均为100%,但实际上这是不可能的。 实验表明:R和P之间存在相反的相互依赖关系,即提高R会降低P,反之亦然,如图1.5检索特性曲线所示。 有人认为:在物理、技术科学信息检索范围内,P提高1%将导致R降低3%。实践经验证明:在现代科技信息检索系统中,R为60-70%,P为40-50%。 检索特性曲线还与文献专业特点有关,例如在具体概念为主、对象描写明确的化学等专业中,产生误检较少,特性曲线向右移(说明查的较准);而在抽象概念多的心理学等领域中,特性曲线则向左移(说明查全率较高,漏检率小)。 此外特性曲线还与对查出的文献适用性的评价有关,若评价标准严格,则曲线编左;反之,曲线偏右。 对于检索来说,漏检是影响检索质量的最主要因素,故必须将M 降低到最低限度; 误检会降低检索的效率,也会影响检索质量。因此,任何检索工具和检索系统必须力争克服漏检(必要条件),同时尽量避免误检(充分条件)。 至于新颖率和检索速度,则可定义如下: 至于新颖率和检索速度,则可定义如下: 能检出的最近单位时间内发表的文献量 新颖率=───────────×100% 最近单位时间内发表的文献总量 检索输出的文献量(m) 检索速度=──────── 检索所用时间(t) 4.机检与手检的异同 5.文献检索的基本步骤 根据文献的特征,可以有两种检索途径: (1)外表途径 a.文献名途径:相当于我们一般所见到的书本目录(文献目录),其价值不大。 (2)内容途径 a.主题途径:从一篇文献中找出几个相关度大的词编为主题词索引(关键词索引、叙词索引、轮排主题索引等)。主题途径检出的文献比较准确,但在全面性上较为逊色。 b.分类途径:假如编一份分类目次表,而文献条目也按分类来编排,则可以从分类途径去查。它适于族性检索,检出的文献较全面,但切题性较差。 b.作者途径 作者包括个人作者和团体作者,还包括专利发明者、专利权所有者等。 作者索引按字顺编排,使用于各种类型的文献,几乎所有的检索工具都配有作者索引。 从作者途径检索必须事先已知作者姓名,所以作者途径只能作为辅助途径。 c.号码途径 有一些文献如专利、科技报告等每篇文献都有一个或多个号码,这些号码可编为号码索引。 它也要首先知道号码。 信息检索的具体步骤
文档评论(0)