机器学习方法在兼类词消歧应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习方法在兼类词消歧应用

基于支持向量机(SVM)的兼类词消歧 1 概述 汉语词性标注问题是中文信息处理领域的基础性研究课题。所谓词性标注就是在给定的句子中判定每个词的语法范畴,确定其词性并加以标注的过程。而自动词类标注的关键是排除兼类词歧义。所谓兼类词就是指在一定的词性标记集下,一个词汇拥有两种或两种以上的词性标记。由此可见,兼类词的数量与给定的词性标记集有关,通常情况下,是词性标记集越详细,兼类情况就越严重。例如,1998年1月份的《人民日报》语料库是用北京大学汉语文本词性标注集标注的,该标注集有43个词类构成,通过统计计算,该语料库中总共有54042个词形,而兼类词有6108个,占11%左右,其中出现频率在30以上的,有410个,占全语料的0.7%。 由于在汉语中,词性的兼类现象普遍存在,给词性标注带来了很大困难。因此对兼类词的处理是词性标注的关键所在。兼类词通常分为两类: 无论分布如何,词义没有发生根本变化。即:同形同音词在不同的分布中同义.也叫单义兼类词。 当具有不同的分布时,词义有明显的区别。即同形同音词在分布不同时词义也不同。也叫多义词类。 在计算机语言信息处理系统中。通常将这两类词都看成兼类词。兼类词的数量虽然不多,但都是常用词,比如“为(p/v)、和(c/v/p)、在(p/v/d)”等,出现频率很高。而且兼类现象很复杂,因此解决好兼类词的标注问题对于提高词性标注的正确率具有重要意义。 对于兼类词的处理,可以上溯到20世纪60年代,一些学者就开始对英语语料库的词类自动标注进行研究,1993年,Mashall提出CLAWS算法,利用概率统计模型对LOB语料语料的词类进行自动标注,正确率达到97%,此后,DeRos又在CLAWS的基础上,提出VOLSUNGA算法,使英语语料库的标注达到实用化。当前,几乎所有的词性标注自动标注器都是基于马尔可夫模型的标注。而在汉语方面,周强提出了一种词语切分和词性标注相结合的汉语语料多级处理方法,探索了规则和统计方法相结合的消歧方法在词性标注方面的应用。白拴虎提出了基于统计的汉语切分和词性自动标注一体化模型及实现方法。刘开瑛等利用CLAWS算法和VOLSUNGA算法及其变形算法对??语语料库进行词类自动标注, 正确率达 90%。特别是中科院计算所的张华平和刘群研制开发的ICTCLAS词法分析系统, 它是基于层叠隐马模型,取得了显著的效果。本文主要介绍了利用如何利用机器学习的分类方法对兼类词进行处理,并对各种方法的实验结果作了比较。 2 基本概念 2.1条件随机场(CRF)在兼类词消歧上的应用 最近一种新的分类方法“条件随机场”被用于中文分词和词性标注等词法分析工作,一般序列分类模型常常采用隐马模型(HMM),像基于类的中文分词。但隐马模型中存在两个假设:输出独立性假设和马尔可夫性假设。其中,输出独立性假设要求序列数据严格相互独立才能保证推导的正确性,而事实上大多数序列数据不能被表示成一系列独立事件。而条件随机场则使用一种概率图模型,具有表达长距离依赖性和交叠性特征的能力,能够较好地解决标注(分类)偏置等问题的优点,而且所有特征可以进行全局归一化,能够求得全局的最优解。 2.2最大熵在兼类词消歧上的应用 2.3贝叶斯分类在兼类词消歧上的应用 2.4支持向量机(SVM)在兼类词消歧上的应用 2.4.1 SVM的基本原理 支持向量机(Support Vector Machine,SVM)的基本思想是:定义最优线性超平面,并把寻找最优线性超平面的算法归结为求解一个凸规划问题,进而基于Mercer核展开定理,通过非线性映射φ把样本空间映射到一个高维乃至于无穷维的特征空间(Hilbert空间),使其在特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性分类和回归等问题。 设给定训练样本{(x1,y1),…,(xn,yn),yi∈{-1,1}},超平面方程为(ω·xi) +b=0,则分类函数就是yi=(ω·xi)+b。将分类函数归一化,使两类样本都满足yi *((ω·xi)+b)1,且离超平面最近的样本的|yi*((ω·xi)+b)|=1,即满足: 图1:支持向量机示意图 如图1,此时分类间隔等于2/‖ω‖,使间隔最大就等价于使‖ω‖/2最小,并满足式(1)且的分类面 H 叫做最优分类面,H1,H2上的训练样本点就称作支持向量。对于线形不可分的情况可以通过构造新的特征向量,将问题转化到一个新的空间,也就是利用内积函数的非线性映射将输入向量到一个高维空间中去,SVM能在此高维空间中给出最佳分类超平面,这就是带核的SVM,构造核函数为K(xi ,xj)的SVM可以归结为求解条件约束二次函数的极值问题 其中为Lagrange系数,式(2)解中非零的以及对应的构成的支持向量集, 由此构成的支持向量机为: 目前研

文档评论(0)

185****7617 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档