第4章自然语言.pptVIP

下载本文档

6
0
约1.02万字
约 87页
2017-05-29 发布于北京
举报
版权申诉

第4章自然语言.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第四章自然语言与信息组织 4.1 自然语言是一种发展趋势 4.2 自然语言的应用方式 4.3 汉语自然语言的特殊问题及分词技术 4.4 单汉字检索 4.5 后控词表 4.6 自然语言检索的效率问题 4.7 自然语言与分类主题语言的比较 4.8 大众分类法－TAG 4.1 概述自然语言在信息组织与检索方面的应用是以计算机检索为前提的；自然语言本身有突出的优点；研究广泛；汉语分词技术的发展；节省时间，建检索系统速度快；多数数据库都具有自然语言检索功能。 4.2 自然语言的应用方式自然语言在信息组织与检索中大致有三种应用方式：不标引（无标引）方式自动抽词标引方式人工标引方式 4.2 自然语言的应用方式不标引（无标引）方式文本关键词匹配检索单汉字检索文本检索作为辅助检索途径文本关键词匹配数据库中存储的是文本（全文、摘要、标题），不进行任何标引，检索时用关键词进行匹配，多称为文本检索；如果是针对全文数据库，则称为全文检索；检索表达式可以是词、词的组配；最普通的应用方式。字符串匹配检索算法精确匹配检索假设两个串t和p： t=t0t1t2…tn-1 目标 p=p0p1…pm-1 模式其中，1m?n（通常mn）。从目标t中查找与模式p完全相同的子串的过程叫做模式匹配。匹配结果有两种：如果t中存在等于p的子串，就指出该子串在t中的位置，称为匹配成功；否则称为匹配失败。（1）朴素模式匹配用p中的字符依次与t中的字符比较。每次顺序比较p和t的对应字符，如果所有得字符都相同，就说明发现了一个匹配。这种算法效率不高，主要原因在于执行中有回溯，一旦比较不等，就将p所指的串右移一个字符，并从p0开始比较。最坏的情况是，每次比较都在最后出现不等，最多比较n-m＋1趟，总比较次数为m*(n-m+1)。（2）KMP算法每当匹配过程中出现字符串比较不等时，不需回溯i指针，而是利用已经得到的“部分匹配”结果将模式向右“滑动”尽可能远的一段距离后，继续进行比较。（3）BM算法模糊匹配模糊匹配检索的效率与精确匹配检索相比要低很多，当进行二叉树搜索时耗费时间将随着数据库的增长呈现出对数增长；模糊检索提高了检全率；其原理简单来说就是给定两个字符串，如何找到一个最经济的操纵序列，使得一个字符串可以转换为另一个字符串。这组操作的成本就是两个字符串的相似度。也就是说，转换成本越低，两个字符串的相似度就越高；反之就相似度越低。基本的转换操作是插入、删除和替换。单汉字检索汉语自然语言检索的特有方式；原理类似与文本关键词匹配；处理单位是“字”，不是“词”；数据库采用“全标引”，即所有汉字（除禁用词）都做倒排索引；单个汉字表达概念能力较弱，因此几乎等同于不标引。文本检索作为辅助途径信息单元用检索语言进行标引；但是题名，摘要等用自然语言提供自由匹配检索。全文检索是指计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。 ????? 全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引，检索时将词分解为字的组合。按词检索指对文章中的词，即语义单位建立索引，检索时按词检索，并且可以处理同义项等。 4.2 自然语言的应用方式 2. 自动抽词标引方式自动抽词标引自动赋词标引自动赋分类号标引自动聚类标引人机结合抽词标引自动抽词标引最早出现的自动标引方式；从标题－－摘要－－全文中抽词；拼写文字中，从空格识别词；而汉语则存在分词问题；根据非关键词表筛选抽取出的词；抽取出的关键词做倒排索引。自动赋词标引在自动抽词的基础上，根据自然语言词与规范的检索词之间的对应关系，将自然语言词转换为规范词，并建立倒排索引；是自然语言与检索语言的结合；检索时可以从自然语言词、规范词入手。自动赋分类号一种自动分类方法；根据自动抽词结果，对照自然语言词与分类号的对照关系以及自动分类规则，将抽取出的自然语言词转换为分类号，并建立倒排文件；两种语言的结合；检索有两个入口：分类号和自然语言词。自动聚类自动分类的一种方法；这里的类是语义上描述同一类事物的一组词的语词类集；在自动抽词的基础上，进行词频分析和语词共现频率的统计分析，判别出若干最能表达信息单元内容的词；与语词类集进行相似性比较，确定信息单元属于那个类；从而实现相关文献的聚集人机结合抽词标引采取一定措施，提