11自然语言标引与检索.ppt

  1. 1、本文档共117页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
11自然语言标引与检索

山西大学管理学院 §11 自然语言标引与检索 第一节 自然语言概述 第二节 关键词语言 第三节 文本检索 第四节 后控词表 第五节 自动标引 第六节 自然语言与知识组织系统的发展 §1 自然语言概述 自然语言的概念:指直接使用不经过控制的自然语言中的语词作标识,进行信息资源的标引和检索。 用于标引和检索的自然语言的类型 关键词法 文本检索 自由标引 自然语言入口词检索 自动标引 关键词法 最早用于计算机情报检索的自然语言形式。具体应用如下: 用计算机自动抽取文献题名、文摘或正文中有检索意义的语词,通过轮排生成各种类型的关键词索引。 文本检索 不进行标引,直接利用计算机的功能,通过自然语言中的语词或语词组配形式,对信息资源的文本数据进行匹配检索的方式。 前提:有电子文本。 优点:不需要标引,对信息资源的处理速度快,可及时投入运行。 缺点:检准率低。 自由标引 由标引人员直接选择自然语言中语词进行标引。 特点:可克服受控标引速度慢,周期长的不足;标引准确度比关键词高;通常用于文献资源增长量大,需求迫切的领域。 自然语言入口词检索 包括在受控系统中使用入口词表检索与后控检索,两者都将自然语言语词作为检索入口,通过入口词与控制语言的转换和结合,实施检索。 两者的不同:受控系统的入口词表,由不用作标引的非正式主题词组成,本身不用来标引,只起提供检索入口的作用。后控词表中的入口词既用作检索入口,也是检索匹配的依据。 自动标引 亦称计算机标引、机标,指直接使用计算机对信息资源进行处理,确定其检索标识的活动,通常包括自动抽词标引、自动赋词标引、自动分类等类型。 自动抽词标引,指使用计算机自动抽取文本资源中表达文献主题的语词作为检索标识。关键词法即为自动抽词标引。此外,还有按词频统计结合各种算法实施的抽词标引。 自动标引 自动赋词标引、自动分类等则是在自动抽词的基础上,依据自然语言语词与控制词、分类号对应表和转换规则等,将自然语言的语词转换成规范化的标引词和分类号。这两种标引方式已超出了单纯自然语言的范围,是自然语言与受控语言的结合。 §2 关键词语言 关键词语言的类型 题内关键词索引(KWIC) 题外关键词索引(KWOC) 双重关键词索引 关键词索引的性能 §2 关键词语言 2.1 关键词法概述 历史渊源:1856年,英国学者克里斯塔多罗在《图书馆目录的编制技术》中提出了书名中的主词即“关键词”这一概念。 当代发展:1958年美国卢恩等人公布了关于关键词索引的构想和样品。 关键词索引编制的步骤 关键词法的特点 在标引阶段只进行少量控制或不作控制,基本上属于自然语言类型; 通常使用禁用词表(stop-list),来淘汰题名中的非关键词,亦即不具有检索意义的词; 一般不建立关键词表,即使建立关键词表,也比标题表、叙词表简单得多,通常不设置任何参照或词间关系,因而篇幅较小,处理方便。 题内关键词索引 简称KWIC,又称上下文关键词索引,由IBM卢恩首创,是最早的机编索引,1960年首次用于美国化学文摘社出版的《化学题录》。 KWIC的编制特点:使用禁用词表选择标题中具有检索意义的词为关键词,并将其作为确定关键词索引条目的依据;关键词的排检点设于标题的中部,所有索引条目按关键词的字顺竖向排列;关键词前后保留文献篇名中的上下文,如文献名称过长,则以轮排的形式移至条目的前部或后部;款目后跟随该信息资源的地址。 题内关键词索引 举例:一篇题为《超文本技术在网络资源组织中的应用》(文献号为3456)的文献,可通过计算机自动生成以下款目: 检索入口 中的应用/ 超文本技术在网络资源组织 3456 应用/超文本 技术在网络资源组织中的 3456 超文本技术在 网络资源组织中的应用/ 3456 本技术在网络 资源组织中的应用/超文 3456 术在网络资源 组织中的应用/超文文本技 3456 资源组织中的 应用/超文文本技术在网络 3456 题外关键词索引 简称KWOC,是对KWIC索引的一种改进形式。针对KWIC将KWIC将排检点

文档评论(0)

xy88118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档