- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
中文信息检索技术综述
0.体系的开发
随着社会的不断进步,尤其是随着互联网的快速发展,人们必须不断接触各种信息。同时,过滤这些信息,提取正确的内容。为了达到这个目的,人们开发出了众多的检索引擎,有针对Web进行搜索的Google、百度等,也有针对各行业开发的专题检索系统。目前,国内的每个行业、领域都在飞速发展,这中间产生了大量的中文信息资源,为了能够及时准确的获取最新的信息,中文检索引擎是必然的产物。中文检索引擎与西文检索引擎在实现的机制和原理上基本一致,但由于汉语本身的特点,必须引入对于中文语言的处理技术,而中文分词技术就是其中很关键的部分。
1文献检索和表达
常见的中文检索引擎主要完成两方面的任务:
1)信息的规范化。将搜集来的信息按照一定的方式进行组织管理,使之成为可以高效检索的信息库。
2)信息的检索和表达。以索引好的信息库作为信息基础,利用信息库已被索引的特点,实施快速检索,同时根据用户的需求将检索结果进行输出。
信息的规范化包括分词和索引(以及资料的搜集和整理)、更新(维护)两部分;信息的检索包括搜索、结果输出两部分。整个信息处理和检索过程如图1所示。
2中文分词技术
2.1切词对汉字的识别
词是最小的、能独立活动的、有意义的语言成分。因此,通常的检索引擎都是以每一个独立的词为单位建立索引,在查询时按照检索词出现的位置和频率对文档进行输出。英语文本是小字符集上的已充分分隔开的词串,而汉语文本是大字符集上的连续字串,并且在词与词之间并没有明显的分割标记。故而存在一个对汉语中的词加以识别的问题,即中文检索引擎首先必须对原文进行切分词。如果不切词(按字检索),可能检索的结果与用户的查询要求会大相径庭,例如当检索德国货币单位“马克”时,就会把“马克思”检索出来,而检索“华人”时会把“中华人民共和国”检索出来。因而进行切词,可以大大提高检索的准确率。
中国的汉字是示意文字,总数有几万个,在由国家标准总局颁布的《信息交换用汉字编码字符集——基本集》(即GB2312-80)中共收录了一级和二级常用汉字共6763个,而在Unicode编码中更是收录多达20902个汉字。据统计,在常用汉语中,90%以上使用的是二字词和三字词,也有使用四字词和五字词。知道这些汉字的特点,对于我们选择合理的切分算法是有益的。
2.2基于分词技术的算法设计
由于书面汉语是字的序列,词与词之间没有间隔标记,使得词的界定往往模糊不清。即使这样,在过去的时间里,人们在汉语的自动分词技术的研究上还是做了很多工作,设计了许多实用、高效的算法。通常的方法主要分为两类:第一类主要基于字典、词库的匹配和词的频度统计,这类方法实用、具体,比较容易实现;第二类方法主要基于句法、语法分析,并结合语义分析,通过对上下文内容所提供信息的分析对词进行定界,这类方法试图让机器具有人类的理解能力,其原理较为晦涩,一般不易实现。
常用的切词算法如下:
1最大词长度str
通常简称为MM法。其基本思想为:设D为词典,MAX表示D中的最大词长,str为待切分的字串。MM法是每次从str中取长度为MAX的子串与D中的词进行匹配。若成功,则该子串为词,指针后移MAX个汉字后继续匹配,否则子串逐次减一进行匹配。
2分词的扫描方向
通常简称为RMM法。RMM法的基本原理与MM法相同,不同的是分词的扫描方向,它是从右至左取子串进行匹配。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245,RMM法在切分的准确率上比MM法有很大提高。
3频率设定索引
统计方法一般不依赖于词典,而是将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计,出现的次数越高,成为一个词的可能性也就越大。在频率超过某个预先设定得阈值时,就将其作为一个词进行索引。这种方法能够有效地提取出未登录词。
2.3匹配法的优缺点
MM法和RMM法的缺点在于对词典的完全性有很强的依赖性,而且无法很好的解决歧义问题,有人提出了双向匹配法,即针对一个字符串,分别从两个方向进行处理,但这种方法只有检错功能,却不能自动进行校正,给出正确结果。由于一个词在不同的文章中出现的次数通常不一样,因此采用统计方法对词的切分准确度并不太高。
鉴于以上几种方法的优缺点,人们自然想把这几种方法结合起来,扬长避短。这里,介绍一种改进的MM算法。
2.3.1双字存储及查询相关数据
采用分层存储的形式,一共分为3层,形成树型结构,如图2所示(每一个字母代表一个字)。
一层存储所有单字。第二层保存所有的双字词和多字词的前两个字(因为,也许会出现ABC为词,但AB不是词的情况),并对两者做不同标记(t/f)。每一个可成词的单字对应一系列第二层节点,用来存储所有以该字为词首的双字(包括上述两种情况)。并
文档评论(0)