基于双字耦合度中文分词交叉歧义处理方法.docVIP

下载本文档

72
0
约5.08千字
约 12页
2018-08-29 发布于福建
举报
版权申诉

基于双字耦合度中文分词交叉歧义处理方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于双字耦合度中文分词交叉歧义处理方法

基于双字耦合度中文分词交叉歧义处理方法　　摘要：本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法：首先利用词典找出所有的交叉歧义，然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明，双字耦合度和t-测试差的结合要优于互信息和t-测试差的结合，因此，用双字耦合度和t-测试差的线性叠加值来消除交叉歧义是一种简单有效的方法。　　关键词：计算机应用；中文信息处理；中文分词；双字耦合度；t-测试差　　中图分类号：TP391　文献标识码立：A 　　　　1 引　言　　　　随着中国社会经济的飞速发展以及互联网在中国的普及，互联网上日益增长的中文信息也被越来越多的人所重视。巨大的商业前景和重要的学术价值，吸引了来自于业界和学术界不同领域的研究人员在中文信息处理这一问题上开展研究。作为中文信息处理基础的分词技术，已经被广泛应用于中文领域的信息检索、人机交互、信息提取、文本挖掘等技术中。　　歧义消除和未登录词识别是当前的分词技术中存在的两大难点。所谓歧义，是指同一个字符串存在不止一种切分形式。一般来说，歧义按照结构可以分为两种歧义类型：交集型歧义(交叉歧义)和组合型歧义(覆盖歧义)。　　有研究者通过统计发现，在这两种歧义结构中，交叉歧义占到了总歧义字段的86％。因此，目前中文分词中歧义消除工作的重点通常集中于如何消除交叉歧义。　　孙茂松等人提出了一种利用句内相邻字之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法。其初步实验显示，可以正确处理90.3％的歧义字段。在此基础上，孙茂松等人进一步提出将两者线性叠加的新的统计量md，并引入“峰”和“谷”的概念，设计了一种无词表的自动分词算法。　　受上述论文的启发，本文引入了另外一种统计量――双字耦合度，并用双字耦合度代替互信息，给出一种利用双字耦合度和t-测试差的线性叠加值来消除交叉歧义的方法，并通过实验对几种不同的统计量进行了比较，发现将双字耦合度和t-测试差进行线性叠加的方法更加简单有效。　　本文内容组织如下：第二节介绍本文中用到的双字耦合度、双字互信息及t-测试差等基本统计量的概念；第三节提出将双字耦合度和t-测试差相结合的方法；第四节是实验和结果分析；最后是总结。　　　　2 两个基本统计量：双字耦合度和t-测试差　　　　2．1　双字耦合度(Coupling Degree of Double Character，CDDC) 　　为了描述一个词中连续两个字的结合紧密程度，有研究者提出了双字耦合度的概念。　　定义1：设ci，ci＋1是两个连续出现的汉字，统计语料库中ci，ci＋1连续出现在一个词中的次数和连续出现的总次数，二者之比就是ci，ci＋1的双字耦合度。计算公式如下：　　　　ci，ci＋1是一个有序字对，表示两个连续汉字，且ci，ci＋1不等于ci＋1，ci。N(…cici＋1……)表示包含了字符串ci，ci＋1的词出现的频率，N(…ci|ci＋1)表不ci作为上一个词的词尾且ci＋1作为相邻下一个词词头出现的频率。例如：“特技”出现17次，“独特技法”出现1次，所以Couple(特，技)为0.94。　　在自然语言处理中，估计两个汉字的结合强度时也常常使用互信息这个概率值。其公式为：　　　　MI越大，表示两个字之间的结合越紧密。反之，断开的可能性越大。当x与y关系强时，MI(x，y)≥0；x与y关系弱时，MI(x，y)≈0；而当MI(x，y)＜0时，x与y称为“互补分布”。　　我们之所以在这里选择双字耦合度，而不是常用的互信息，是因为我们认为一个汉字对(A，B)的双字耦合度比其互信息更适合用来在交叉歧义中判断连续出现的AB属于同一个词的概率大小。互信息是计算两个汉字连续出现在一个词中的概率，而两个汉字在语料库中出现的概率情况共有三种，一是两个汉字连续出现，并且在一个词中；二是两个汉字连续出现，但分别属于两个不同的词；三是非连续出现。互信息计算的是两个汉字连续出现的可能性，然而有这样一种情况：有些汉字在语料库中出现虽然比较频繁，但是连续在一起出现比较少，然而只要是连在一起出现的，就很可能是一个词。这种情况下的互信息计算出来会比较小。但实际上二者的结合度应该是比较高的。而双字耦合度是计算两个连续汉字出现在一个词中的概率，并不考虑汉字非连续出现的情况。　　例如：“教务”这个连续字符串在语料库中一共出现了16次，“教”字出现了14 945次，“务”字出现了6 015次。(教，务)的互信息只有-0.5119。如果用互信息来判断该字对之间位置的切分，是要断开的。但是实际上，字对(教，务)在语料库中出现的16次全部都是“教务”“教务长”