基于统计的中文自动分类研究.doc

下载文档 降价啦

2
0
约1.02万字
约 5页
2016-10-09 发布于贵州
举报
版权申诉
保障服务

基于统计的中文自动分类研究.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于统计的中文自动分类研究

基于统计的中文词自动分类研究* 赵石顽夏莹马少平智能技术与系统国家重点实验室清华大学计算机系100084 E-mail: xia@s1000e.cs.tsinghua.edu.cn Tel: 010一、引言基于统计的中文词分类在自然语言处理领域有着重要的应用。机器自动生成的词类可以取代文法的词类；在分类基础上建立的基于类的语言模型可以应用于语音识别、OCR、汉字智能输入等许多领域。众所周知，基于词的语言模型在自然语言处理的许多方面取得了巨大的成功。然而，基于词的语言模型也存在着许多的问题，如参数空间庞大，训练数据不足，数据稀疏等。词的分类可以在一定程度上解决上述问题。在计算语言学方面的应用中，不管是采用统计的方法，还是采用文法的方法，对词类进行处理都比对单个的词进行处理时问题的复杂度要小得多。我们用基于类的语言模型取代基于词的语言模型，可以减小模型的参数空间，减少系统对存储空间的要求。从而可以在小型的系统如掌上电脑、移动电话上建立基于类的语言模型，实现智能输入等。词的分类是建立基于类的语言模型的基础。无论是针对中文，还是别的语言，人们对词的类算法已经做了许多的研究。 Brown等人提出了两个词的自动分类算法。在他们实现的两个分类算法中，都是利用平均互信息作为评价函数。算法I．(1) 首先将每一个词都当成一个单独的类，然后计算所有相邻类的互信息；(2) 将互信息损失最少的两个类合并；(3) 经过V－C次合并得到C个类；(4) 在得到C个类以后，把词汇表中的每一个词移到一个使得平均互信息最大的类中，重复该步骤直到互信息不再增加为止。然而，他们认为，当词汇表的大小超过5,000时，这个算法是不可行的。算法II．对一个大的词汇表，(1) 将C个频度最高的词作为C个单独的类；(2) 将未被分配的词中频度最高的一个词作为第C+1类，然后将这C＋1个类中互信息损失最wenjian-3少的两个类合并；(3) 经过V－C步后，词汇表中的V个词被分成C个类。用这个方法，一个有260,741个英文单词的词表被分成了1,000类。 Chang和Chen在他们的论文中，以混乱度作为全局最优评价函数，提出了一个模拟退火的词分类算法：(1) 初始化：将每个词随机分配到一个类中，类的总数是事先定义好的。(2) 移动：随机地选取一个词，将该词重新分配到一个随机选取的类中。 (3) 接受或者返回：如果混乱度的改变在控制的范围之内，则接受新的分配，否则，撤销刚才2的操作。(4) 循环：重复上述两个步骤，直到混乱度收敛为止。该算法试图找出一个全局最优的分类方案，但是在训练集比较大的时候，算法的时间复杂度太大。 Gao和Chen提出了一个自顶向下的二叉树分裂的方法，他们利用词的上下文的方向性，同时得到两个分类二叉树。McMahon在他的论文中，提出了一个类似退火的分类算法。李涓子在她的博士论文中，提出了一种聚类的算法。她认为聚类过程主要由三个部分组成：聚类时词分布的描述方法，聚类采用的控制策略以及控制聚类过程的目标函数。她在聚类时是采用自顶向下的方法，词的分布信息用的是词的二元同现关系，利用信息论中的熵作为聚类时的目标函数。上面描述的自顶向下分裂的方法和从下而上合并的方法，两者具有一定的互补性。在自顶向下的方法中，上层的失误在下层是无法纠正的，而且下层的分类结果精确度较低。因此，在本文中，我们采用自顶向下分裂和从下而上合并相结合的方法。我们使用平均互信息作为分类的全局评估函数，分类过程分为两个步骤，首先，我们采用合并的方法将词表中的一些词聚在一起，形成一些小的词类。在第二个阶段，我们把第一步得到的词类作为一个单独的词来加以考虑，然后采用自顶向下的方法，对整个词表进行分类。在实际的工作中，我们首先对大规模语料文本进行了统计和计算工作，得到词的一元和二元信息，在这个基础上，我们进行了词的分类。我们对实现的系统进行了一系列实验，实验结果是令人满意的。本文第二节介绍了我们采用的分类算法，第三节给出了分类的结果及其在基于类的语言模型中的应用，第四节给出了我们的一些结论。二、中文词分类算法（一）互信息的计算公式词分类算法的实现跟采用的评价函数密切相关。本文采用平均互信息作为全局评价函数对汉字进行分类。根据信息学原理，熵的定义如下：其中是一个离散的随机变量，其概率分布为p(x)，。熵是一个描述随机变量的不确定性的统计量，一个随机变量的熵越大，它的不确定性也就越大。我们通过上面的公式导出两个随机变量之间的互信息公式。从上面的公式中我们可以看出，在已知的情况下，随机变量的不确定度程度会减小，而两者之间的互信息表明了这个减少的程度。在自然语言中，词类的分布显然也满足随机分布，我们同样可以得到词类的互信息计算公式如下：其中