基于混合模型中国人名自动识别.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于混合模型中国人名自动识别

基于混合模型中国人名自动识别   (大连理工大学计算机科学与工程系,辽宁 大连 116024)   摘 要:本文提出了一种支持向量机(SVM)和概率统计模型相结合的中国人名自动识别方法。该方法首先按字抽取特征向量的属性得到训练集,采用多项式核函数建立SVM人名识别模型,然后在特征空间中计算测试样本到SVM最优超平面的距离,当该距离大于给定的闽值时使用SVM对测试样本进行分类,否则使用概率统计方法。实验表明,采用混合模型,对样本在空间的不同分布使用不同的方法可以取得比单独使用SVM或概率统计更好的   分类效果,系统开式综合指标F-值比单纯使用支持向量机方法提高了1.51%。   关键词:计算机应用;中文信息处理;支持向量机;概率统计;混合模型;人名识别   中图分类号:TP391 文献标识码:A      1 引言      中文未登录词的识别是现代汉语词法分析的一项基础性研究工作,对于信息抽取、信息检索以及汉语的自动分词等具有重要的意义。所谓未登录词主要是指分词系统的词典中未收录的词,包括中国人名、地名、组织机构名、缩略语、品牌名、专业及文化新词等。中国人名、地名等未登录词在文本中有非常高的使用频度和比例,而且由于未登录词引入的分词错误比单纯的词表切分歧义还要严重。中文未登录词识别技术的突破将对提高汉语自动分词系统的正确率、词法分析以及句法分析的准确性有很重要的作用。   中国人名在未登录词中占有较大的比重,统计[1]表明,中国人名占未登录词总数的15%。国家“863”高科技研究发展计划306智能接口专家组1998年对国内自动分词软件的评测结果表明[2]:中国人名识别的召回率仅为68.77%,其切分错误高达50%以上。因此中国人名识别是未登录词识别的重点和关键。   目前人名识别的主流技术是采用统计模型,以及统计和规则相结合的方法。文献[1]统计了姓名用字概率以及姓名边界信息等大量的数据信息,最后根据阈值对候选姓名进行取舍。文献[2]采用Viterbi算法对切词结果进行标注并在此基础上进行模式最大匹配,最终实现中国人名的识别。文献[3]针对姓名语料库和规则库来训练某个字作为姓名组成部分的概率值,并用它们来计算某个候选字段作为姓名的概率,其中概率值大于一定阈值的字段为识别出的中国人名。文献[4]提出了姓名切分可信度,并在识别过程中加入了惩罚机制。文献[5]在切分、词性标注之后,结合决策树算法对中国人名进行识别。   本文采用支持向量机(Support Vector Ma―chine,SVM)进行中国人名自动识别并在此基础上进行了改进。SVM是Vapnik[6]在统计学习理论的基础上发展起来的一种新的通用学习方法,它已表现出很多优于已有机器学习方法的性能,如具有很好的泛化能力、高维处理能力、强大的非线性处理能力等,被广泛应用与很多模式识别领域[7]。本文结合中文文本中人名的特点,对训练语料中的每个字进行分类标注及词性标注,然后抽取单字本身、词性、该字是否在姓氏表中、单字用作姓名的概率及其上下文信息作为特征向量的属性,并将其转换为二进制表示,并在此基础上建立训练集,通过选取合适的核函数,实现对测试语料中每个字的分类标注,最后根据分类结果识别出人名。   我们通过对SVM的识别结果进行分析发现,SVM和其他分类器一样,出错样本点多数集中在分界面附近,如果能采用一种较好的方法对分界面附近的样本进行分类,可望进一步改善中国人名识别的效果。概率统计方法是未登录词识别研究中较为成熟的技术,已经得到了广泛的应用,本文提出一种基于SVM和概率统计组合算法的人名识别模型,对样本在空间的不同分布使用不同的方法可以取得比单独使用SVM或概率统计更好的分类效果。具体地说,对于距离SVM最优超平面较近的测试样本采用概率统计的方法代替SVM方法进行识别;对于距离最优超平面较远的样本仍然使用SVM分类。实验表明,该混合模型综合了SVM和概率统计两种方法的优势,结果好于单纯的SVM方法和概率统计方法。系统开式综合指标F-值比单纯使用支持向量机方法提高了1.51%。      2 基于SVM的人名识别模型      首先我们对训练语料进行自动分词和词性标注,然后按字抽取特性建立训练集并选取合适的Kernel函数,建立用SVM识别人名的机器学习模型。      2.1支持向量机SVM   sv为支持向量,b是分类阈值,可用任一支持向量或通过两类中任一对支持向量取中值求得。   SVM本身是解决两类分类问题的,对于多类(k类)划分问题可将其转化为两类划分问题加以处理,目前主要有两种方法:(1)Pairwise方法[9]:在任意两个类别之间构造一个二值分类器,从而生成k(k-1)/2个二值分类器,每个分类器训练两种不同类别的

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档