第四章检索方法..pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
4.6 检索策略 4.6.1 含义 检索策略:在分析情报提问的基础上,确定检索途径与检索用词,并明确各词之间的逻辑关系与查找步骤地科学安排。(陈光祚) 检索策略是为实现检索目标而制定的全盘计划和方案,是对整个检索过程的谋划和指导。(赖茂生) 4.6.2 常用计算机检索策略简介 (1)最专指面优先策赂。 所谓最专指面优先策略,是指检索时,首先查找所有概念组面中最专指的一个概念组面。然后,再依据用户需求以及初步检索结果,决定是否需要加人其他的概念组面,以及怎样加入其他的概念组面。 (2)最低登录量面优先策略 所谓登录量,是指一个索引词在标引中的使用次数。它一般记录在数据库词表中,也可以显示在检索终端设备上。 (3)积木型策略 积木型策略,是指检索时首先逐个查找各个概念组面,然后再把各个组面组配起来,得到最终的检索结果。 (4)引文珠形增长策略 引文珠形增长策略,是首先以一个较为核心的概念组面进行试捡并仔细浏览初步的检索结果,尤其是特别符合用户需要的文献记录,从中选择更多、更合适的检索词补充到检索式中,然后,再浏览命中的文献记录,再从中选择检索词补充到检索式中。如此反复操作,直到得到理想的最终检索结果。 (5)逐次分馏策略 逐次分馏策略,是指检索时首先建立较大的原始文献集,然后利用各种检索的限制或限定措施,逐步缩小检索范围,直至符合用户需要为止。 4.6.3 计算机检索策略的制订和实施 (1)明确信息需求 信息需求按范围和程度的不同,可以分为三种类型: 对某一课题进行全面详尽的了解,普查型,查全率 了解关于某一主题特定方面的文献资料,用于解决研究中的具体问题,攻关型,需要较高的查准率。 了解最新的研究方向和研究成果,探索型。新颖性 (2)选择检索系统 要考虑所选择计算机检索系统是否包含与信息需求结合紧密,学科专业对口,报道及时,揭示信息内容淮确的数据库以及检索系统的费用是否昂贵,检索功能是否完善.辅助服务是否周到等问题。 (3)确定检索词 检索词可以分为四类:表示主题的检索词,表示作者的检索词,表示分类的检索词,表示特殊意义的检索词。选词的选择: 根据检索课题所涉及的学科专业和技术内容选词。 对检索词进行处理,使用主题词表进行比较,选择规范化的词汇,尽量使用国际上通用的词汇,避免使用一词多义的词汇。 (4)构造检索表达式 必须遵守概念组配的原则,不能越级组配,避免使组配结果产生多种含义。 尽可能将最专指或登录数最小的概念组面.放置在逻辑检索式的开头,以便减少系统计算机在执行检索式过程中的运算次数,降低对系统计算机的资源占用.从而达到削减检索费用,并提高检索速度的目的。 尽量简化逻辑检索式,使之更为清晰。 善于利用检索系统和数据库的特性编制检索式。 (5)修改检索策略 提问:如果查到的结果特别少,应该怎么做? 如果查到的结果太多了,应该怎么做? 检索词和检索运算符两个方面进行调整。 本章思考题 1.已知有A、B、C三个集合,它们之间的关系图示如下。请问图中7个区域的布尔逻辑表达式分别是什么? 2.常用的布尔检索式的变换处理方法有哪些?它们各有何特点? 3.给出与下列布尔检索式样等价的逆波兰式和准波兰式: ①A+B*C ②(A+B)*(C+D)+E ③A+B*(C+D+E)+F ④(A+B)+*C+D*(E—F) 4.编写算法,分别实现布尔检索式的逆波兰变换和准波兰变换。 5.截词检索主要有哪些类型?请举例说明。 6.有人说CNKI支持中文截词检索,请对此说法进行评价。 7.位置算符(nw)和(nN)的运算含义分别是什么?试举例说明二者的区别。 8.如何实现位置检索功能?其倒排文档结构应如何设计? 9.聚类检索的基本算法思想是什么? 10.什么是检索策略,在手工、联机、因特同等检察环境下的检索策略各有何特点? * * 12 第四章 文本信息检索技术与方法 4.1 布尔检索 布尔检索主要以倒排档(inverted file)为基础,通过布尔逻辑算符对检索词(或检索代码)进行组配形成检索式,进而以此检索式作为匹配依据完成对倒排档的匹配处理并获取查询结果。 4.1.1 布尔逻辑算符及其运算含义 (1)逻辑或(OR) “逻辑或”一般用符号“OR”来表示,也称为析取联结词,形式上还可以写作“+”。检索词A和检索词B若用“OR”组配,则检索式可以表示为: A OR B 或者 A+B (2)逻辑与(AND) “逻辑与”一般用符号“AND”表示,也称为合取联结词,形式上还可写作为“*”。检索词A和检索词B若用“AND”组配,则检索式可以表示为: A AND B或者A*B (3)逻辑非(NOT) “逻辑非”也称否定联结词,一般用符号“NOT”或“AND NOT”表示,形式上还可写作“一”。检索词A

文档评论(0)

586334000 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档