第二章信息检索基础知识课件.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
检索的基本原理 信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择, 是两者匹配(match)的过程。 一方面是用户的信息需求, 一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search, locate, hit) 相关的信息。   匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。 信息检索一般过程 信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下: 中图法大类表 《中图法》体系细分如下所示: T 工业技术 TP 自动化技术、计算技术 3 计算技术、计算机 31 计算机软件 316 操作系统 .1    分时操作系统 .2 实时操作系统 .7 Windows操作系统 39 计算机的应用 391 信息处理(信息加工) 391.7 机器辅助技术 391.72 CAD 391.73 CAM …… * 叙词语言 是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑组配的一种主语语言。如《汉语主题词表》、《INSPEC叙词表》(《科学文摘》)、《工程索引叙词表》等。 非规范主题语言:它是相对于规范主题语言而言的,以自然语言的语词作检索标识,其所用词汇未经过规范化处理。非规范主题语言包括关键词语言和纯自然语言。 ※ 关键词语言 直接从文献信息的标题、摘要或内容本身抽取出来的用于揭示信息主题内容的自由词。 ※ 纯自然语言 指完全使用自然语言,即对一条完整的信息中任何词汇都可以进行检索。它采用全文匹配法检索,主要运用于计算机全文数据库和网络信息检索中。使用纯自然语言中检索中最大的问题是误检率极高。 ★关键词的提炼 1、反映信息概念的准确性(作为检索词应当科学,表达的意思要准确,普遍使用,同时应该简明、精练,尽可能简短明了,易输易检,词汇不宜过长) 古代语言演变=古代语言*语言演变 =古代语言*演变 2、反映信息内容的全面性 协同设计+协同工作 3、注意检索词的多样性 轨道 铁轨 过程和规律 微型计算机 微机 电脑 “加热设备”可抽象化为“温度控制设备” “温度计”即“温度测量仪器” 4、少用或不用副词、助词、指示代词等不反映检索内容的词或词组。 如a,the,is,http,com 5、删除具有包含关系的其中一个 教学用的信息检索课多媒体课件?信息检索*多媒体*课件 6、补充 A、补充还原词组:WTO?世贸组织?世界贸易组织 B、补充同义词或相关词: 计算机病毒?(计算机+电脑)*病毒 C、增加限定词(解决一词多义现象): 杜鹃?杜鹃(动物)、杜鹃(植物) 7、注意输入错别字、滥用多义词。如JAVA,既可只太平洋上的一个岛,也可是一种著名的咖啡,还是一种计算机语言。 8、切忌想要什么就输什么。 另外:首次利用关键词检索时,不要把条件限制得过于严格,最 好是检索出一些结果再使用其他限定条件,进行二次检索。 3、检索途径 检索途径又称检索入口,指信息用户在检索时,把所需信息的某种特征标识转换为检索标识,以此为入口进行检索 信息检索途径及其选择 内容特征检索途径 主题途径 指通过能表达文献内容的主题词来检索文献的一种途径。是信息检索的一种主要途径。 【如何提取检索词】: 1、切分 切分就是以词为单位划分句子和词组。 例:检索有关国际|国内|集装箱|班轮|运输方面的研究论文 要点:A.词是语义切分的最小单元,也是检索的最小单元。切分必须彻底,必须“到词为止”。如:“信息检索”可切分为:“信息|检索”。 B.切分也要适度,不能因切分而改变语义。如:不能将“操作系统”切分为“操作|系统” 2、删除 将课题转换成关键词的集合 A.删除不具有检索意义的虚词(a,the,is等)和关键词(因使用太宽泛而不具有检索意义,如:http,com等) B.删除过分宽泛和过份具体的限定词 无损检测技术在材料性能评价中的应用?无损检测*材料 C.删除具有包含关系的其中一个 教学用的信息检索课多媒体课件?信息检索*多媒体*课件 3、替换 用更本质的概念替换表达欠佳的概念 稀土

文档评论(0)

phljianjian + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档