第4章自然语言.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第四章 自然语言与信息组织 4.1 自然语言是一种发展趋势 4.2 自然语言的应用方式 4.3 汉语自然语言的特殊问题及分词技术 4.4 单汉字检索 4.5 后控词表 4.6 自然语言检索的效率问题 4.7 自然语言与分类主题语言的比较 4.8 大众分类法-TAG 4.1 概述 自然语言在信息组织与检索方面的应用是以计算机检索为前提的; 自然语言本身有突出的优点; 研究广泛; 汉语分词技术的发展; 节省时间,建检索系统速度快; 多数数据库都具有自然语言检索功能。 4.2 自然语言的应用方式 自然语言在信息组织与检索中大致有三种应用方式: 不标引(无标引)方式 自动抽词标引方式 人工标引方式 4.2 自然语言的应用方式 不标引(无标引)方式 文本关键词匹配检索 单汉字检索 文本检索作为辅助检索途径 文本关键词匹配 数据库中存储的是文本(全文、摘要、标题),不进行任何标引,检索时用关键词进行匹配,多称为文本检索; 如果是针对全文数据库,则称为全文检索; 检索表达式可以是词、词的组配; 最普通的应用方式。 字符串匹配检索算法 精确匹配检索 假设两个串t和p: t=t0t1t2…tn-1 目标 p=p0p1…pm-1 模式 其中,1m?n(通常mn)。从目标t中查找与模式p完全相同的子串的过程叫做模式匹配。匹配结果有两种:如果t中存在等于p的子串,就指出该子串在t中的位置,称为匹配成功;否则称为匹配失败。 (1)朴素模式匹配 用p中的字符依次与t中的字符比较。每次顺序比较p和t的对应字符,如果所有得字符都相同,就说明发现了一个匹配。 这种算法效率不高,主要原因在于执行中有回溯,一旦比较不等,就将p所指的串右移一个字符,并从p0开始比较。最坏的情况是,每次比较都在最后出现不等,最多比较n-m+1趟,总比较次数为m*(n-m+1)。 (2)KMP算法 每当匹配过程中出现字符串比较不等时,不需回溯i指针,而是利用已经得到的“部分匹配”结果将模式向右“滑动”尽可能远的一段距离后,继续进行比较。 (3)BM算法 模糊匹配 模糊匹配检索的效率与精确匹配检索相比要低很多,当进行二叉树搜索时耗费时间将随着数据库的增长呈现出对数增长; 模糊检索提高了检全率; 其原理简单来说就是给定两个字符串,如何找到一个最经济的操纵序列,使得一个字符串可以转换为另一个字符串。这组操作的成本就是两个字符串的相似度。也就是说,转换成本越低,两个字符串的相似度就越高;反之就相似度越低。基本的转换操作是插入、删除和替换。 单汉字检索 汉语自然语言检索的特有方式; 原理类似与文本关键词匹配;处理单位是“字”,不是“词”; 数据库采用“全标引”,即所有汉字(除禁用词)都做倒排索引; 单个汉字表达概念能力较弱,因此几乎等同于不标引。 文本检索作为辅助途径 信息单元用检索语言进行标引; 但是题名,摘要等用自然语言提供自由匹配检索。 全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。 ????? 全文检索的方法主要分为按字检索和按词检索两种。 按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。 按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。 4.2 自然语言的应用方式 2. 自动抽词标引方式 自动抽词标引 自动赋词标引 自动赋分类号标引 自动聚类标引 人机结合抽词标引 自动抽词标引 最早出现的自动标引方式; 从标题--摘要--全文中抽词; 拼写文字中,从空格识别词;而汉语则存在分词问题; 根据非关键词表筛选抽取出的词; 抽取出的关键词做倒排索引。 自动赋词标引 在自动抽词的基础上,根据自然语言词与规范的检索词之间的对应关系,将自然语言词转换为规范词,并建立倒排索引; 是自然语言与检索语言的结合; 检索时可以从自然语言词、规范词入手。 自动赋分类号 一种自动分类方法; 根据自动抽词结果,对照自然语言词与分类号的对照关系以及自动分类规则,将抽取出的自然语言词转换为分类号,并建立倒排文件; 两种语言的结合; 检索有两个入口:分类号和自然语言词。 自动聚类 自动分类的一种方法; 这里的类是语义上描述同一类事物的一组词的语词类集; 在自动抽词的基础上,进行词频分析和语词共现频率的统计分析,判别出若干最能表达信息单元内容的词; 与语词类集进行相似性比较,确定信息单元属于那个类;从而实现相关文献的聚集 人机结合抽词标引 采取一定措施,提

文档评论(0)

jdy261842 + 关注
实名认证
文档贡献者

分享好文档!

1亿VIP精品文档

相关文档