- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种快速交集型歧义检测方法
一种快速的交集型歧义检测方法
(国防科学技术大学 信息系统与管理学院, 长沙 410073)
??
摘要:中文分词中,交集型歧义检测方法采用的双向最大匹配法与全切分方法存在着各自的弊病,无法满足大规模数据的精确处理。为此,提出了一种快速的交集型歧义检测方法,引入次长词进行检测,能高效准确地检测出中文文本中的交集型歧义。经实验验证,该方法在精度与速度两方面均能满足大规模语料的处理。
?す丶?词:中文分词; 交集型歧义; 最长交集字段
?ぶ型挤掷嗪牛?TP301.6文献标志码:A
文章编号:1001-?B3695(2008)11-?B3259-?B03
??
Fast crossing ambiguity detection method
??
LIU Jian, ZHANG Wei-ming
??
(School of Information System Management, National University of Defense Technology, Changsha 410073, China)
??
Abstract:In Chinese word segmentation, the FBMM and word omni-segmentation were widely used to detect OAS, but the shortcomings of their existence make them unable to meet demand. This paper presented a rapid crossing ambiguity detection method, which could efficient and accurate detect the OAS. The experiment shows the new method accuracy and speed in the two areas can meet the handling large-scale corpus.
??Key words:Chinese word segmentation; crossing ambiguity; maximal overlapping ambiguity string(MOAS)
?お?
中文分词技术是中文信息检索、中文自然语言处理等应用的基础。目前,中文分词技术面临的主要问题在于两个方面,即歧义的处理和未登录词的识别。其中歧义按照类型可以分为交集型歧义、组合型歧义两种类型。根据统计数据表明,在所有歧义中,交集型歧义有90%左右,占绝大多数,因此目前的研究也基本集中在交集型歧义的处理上。孙茂松等人[1]通过对1亿字的语料进行统计,提出了最长交集字段(MOAS)的概念,发现96%的MOAS是伪歧义(这种歧义字段只有一种固定的切分路径),仅有4%的MOAS属于真歧义,并由此提出了可以通过记忆的方法提高交集型歧义字段的切分准确率。但是这种方法实现的前提是利用语料库进行处理,找出所有的MOAS并构造歧义切分字典,因此MOAS的检测与提取成为该项技术的关键。??
MOAS根据其长度可以分为三类:字长大于词典词(如“结合成分子时”,歧义结构是“结合―合成―成分―分子―子时”)、字长等于词典词(如“中学生”,歧义结构是“中学―学生”)、字长小于词典词(如“枉费心机”中“费心机”、歧义结构是“费心―心机”)。笔者通过统计1亿字的语料,检测出MOAS段型数为946 200,其中长度等于字典词的MOAS共有120 413,占12.73%,通过例句与内省的方式进行检查,发现属于伪歧义的有90%左右;小于词表词的MOAS共有9 329,占总数的1%,其切分方式均服从字典词,该统计结果与李斌等人[2]的结论基本一致。由于长度小于字典词的MOAS均服从字典词的切分,在MOAS的检测过程中可以忽略;而等于字典词长的MOAS一方面由于其数量较多,另一方面其中大量为伪歧义,可能对语义信息产生误导,因此需要保留。??
MOAS的检测目前都采用基于字典的机械分词方法,主要是双向最大匹配法(forward-backward maxmum, FBMM)与全切分方法。这两种方法都存在不同程度的缺陷:最大双向匹配法尽管速度很快,但是在MOAS检测中,一方面无法检测小于等于字典词长的MOAS,另一方面对于链长为偶数的MOAS也会被忽略;全切分方法虽然可以检测出所有的MOAS,但是运算速度很慢,时间开销是前一种方法的上百倍[3],不适合处理大规模的语料数据。??
针对以上问题,本文结合最大双向匹配法与全切分方
文档评论(0)