一种基于统计的汉语切词方法.doc

下载文档 降价啦

0
0
约6.34千字
约 10页
2016-12-18 发布于贵州
举报
版权申诉
保障服务

　一种基于统计的汉语切词方法.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一种基于统计的汉语切词方法刘海峰王元元（解放军理工大学理江苏南京 210007）【摘要】汉语分词是中文信息处理系统的基础。本文的主要目的是:提出一种概率模式与统计手段相结合的方法进行汉语切词。首先采用一种基于概率的算法对汉语文本进行切分，然后在此基础上借助样本方差这一统计手段对切分结果进行检验、修正；利用两种模型相结合的方式，提高切分的准确率。【关键词】自动分词搭配最大概率样本均值样本方差 1 汉语切词的意义对于利用计算机进行汉语自动翻译的工作者来说，汉语文本的切词是必须面对的问题。一般说来，如果我们能在两种不同的语言中找到对应的模式，那么翻译将是非常理想的。但是书面汉语不像英语、法语等印欧语言那样，词与词之间用空格分开，一个汉语的句子却是由前后连续的字符串组成，词与词之间并没有明显的分界标志。这样，计算机面对的是汉语整句输入，要使计算机像人一样对句子进行处理，就必需把这一串字符切分成合乎人的语感的一串词。而这一步骤几乎又是我们进行其它所有与自然语言处理相关的应用—诸如中文信息处理、人机对话等的前提。其次，语言中的词往往具有多种词性和多种词义，这虽然是各种语言的一种普遍现象，但是在汉语中这种现象比起西方语言来说要严重得多。汉语中各种搭配、组合十分复杂，常常会产生歧义。比如句子：“彩色铅笔盒子”可以理解为（彩色）（铅笔盒子），也可以理解为（彩色铅笔）（盒子）；“他讲不清楚”既可以解释为“他讲，他不清楚”，又可以解释为“他讲的不清楚”。等等，诸如此类现象在汉语中十分普遍。象这些词与词之间的固有歧义、组合歧义、多动词连用、词性歧义以及词序等问题，使得对汉语分析变得极其复杂。因此，要实现对汉语的计算机处理，进行汉语字词的自动切分是必须的。机器处理的优势在于它有强大的计算能力，可以大规模地处理语料，再结合人工手段则可以提高它的精确度[1]。切词的很小错误率对文章的理解却影响甚大。假设一个切词系统的错误率为2%，在一篇1000词的文章中，大约出现20处切词错误。又假设文章中的句子平均长度为5个词，整篇文章有大约200个句子；再假设这些切词错误均匀分布（不过分集中），这20处切词错误就可能导致大约20个句子的翻译错误，错误率将达到10%。换句话说，切词阶段的错误率在翻译的过程中将会被“放大”，放大的倍数约等于句子的平均长度。这对翻译正确率的影响是非常大的[2]。自动分词是现代汉语进行句法分析的第一步，是后续语法分析、语义分析等的分析基础。可以说没有有效的分词方法，汉语的进一步分析很难进行。 2 主要的切词方法目前，常用的切词方法基本上分为基于规则的方法、基于统计的方法、以及两者的结合。基于规则的方法最常见的是以一定的形式文法系统来表述自然语言中大小成分间的组合规则；基于统计的方法则以各种统计数据来显示语言成分间的组合可能性[3]。本文主要的着眼点放在统计方法上。利用统计方法借助计算机对汉语进行句法分析所需要的工具是语料库。相对于基于规则的方法来说，基于统计的方法不再单独使用诸如词类、词性等知识进行句法分析，而是自动从语料库中学习词汇和词的结构信息。因为词汇之间存在着许多关系信息，某些词之间有相互结合的趋势。而这种结合可以反应更为深入的语义关系，可以在分析汉语文本中进行清除歧义问题。 3 一种基于统计的分词方法用统计的方法进行汉语切分的一个常用方法是基于Veterbi算法的方法[4]。设T=C1C2…Cn是一个汉语句子，这里，C1,C2,…,Cn 代表n个汉字字符。把一个汉语句子切分成词序列就是把这个字符序列重新组合成词。即有　 = （1）其中，，分词过程可以看作是在给定输入字符串S的条件下，输出w1w2…wm字符串为的过程，而合理的概率分词结果应为条件概率P(w1w2…wm|T) 取到最大值时所对应的词串。根据贝叶斯公式，得，（2）　由于T 为给定的字符串，故P(T )为定值，又 P(T|S)为符合切分S 的条件下，T 出现的概率，又因为在S 的条件下 T 出现为必然事件，故可以认为: P(T|S)=1。因此，由（2）式，我们只需要考虑P(S)=P(w1w2…wm)取得最大值P* 时的情况。根据条件概率公式 P* = max(P(w1w2…wm)）　（3）由于（3）式的计算较复杂，为了减少参数空间，可以考虑限制参数的空间维数，如使用二元模型[5]进行近似计算：　（4）即只考虑wi 的前一个词wi-1对wi 取值概率的影响，以　（5）　进行近似计算。而值 P(wi|