基于混合模型中国人名自动识别.docVIP

下载本文档

4
0
约7.75千字
约 18页
2018-08-30 发布于福建
举报
版权申诉

基于混合模型中国人名自动识别.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于混合模型中国人名自动识别

基于混合模型中国人名自动识别　　(大连理工大学计算机科学与工程系，辽宁　大连　116024) 　　摘　要：本文提出了一种支持向量机(SVM)和概率统计模型相结合的中国人名自动识别方法。该方法首先按字抽取特征向量的属性得到训练集，采用多项式核函数建立SVM人名识别模型，然后在特征空间中计算测试样本到SVM最优超平面的距离，当该距离大于给定的闽值时使用SVM对测试样本进行分类，否则使用概率统计方法。实验表明，采用混合模型，对样本在空间的不同分布使用不同的方法可以取得比单独使用SVM或概率统计更好的　　分类效果，系统开式综合指标F－值比单纯使用支持向量机方法提高了1.51％。　　关键词：计算机应用；中文信息处理；支持向量机；概率统计；混合模型；人名识别　　中图分类号：TP391　文献标识码：A 　　　　1 引言　　　　中文未登录词的识别是现代汉语词法分析的一项基础性研究工作，对于信息抽取、信息检索以及汉语的自动分词等具有重要的意义。所谓未登录词主要是指分词系统的词典中未收录的词，包括中国人名、地名、组织机构名、缩略语、品牌名、专业及文化新词等。中国人名、地名等未登录词在文本中有非常高的使用频度和比例，而且由于未登录词引入的分词错误比单纯的词表切分歧义还要严重。中文未登录词识别技术的突破将对提高汉语自动分词系统的正确率、词法分析以及句法分析的准确性有很重要的作用。　　中国人名在未登录词中占有较大的比重，统计[1]表明，中国人名占未登录词总数的15％。国家“863”高科技研究发展计划306智能接口专家组1998年对国内自动分词软件的评测结果表明[2]：中国人名识别的召回率仅为68.77％，其切分错误高达50％以上。因此中国人名识别是未登录词识别的重点和关键。　　目前人名识别的主流技术是采用统计模型，以及统计和规则相结合的方法。文献[1]统计了姓名用字概率以及姓名边界信息等大量的数据信息，最后根据阈值对候选姓名进行取舍。文献[2]采用Viterbi算法对切词结果进行标注并在此基础上进行模式最大匹配，最终实现中国人名的识别。文献[3]针对姓名语料库和规则库来训练某个字作为姓名组成部分的概率值，并用它们来计算某个候选字段作为姓名的概率，其中概率值大于一定阈值的字段为识别出的中国人名。文献[4]提出了姓名切分可信度，并在识别过程中加入了惩罚机制。文献[5]在切分、词性标注之后，结合决策树算法对中国人名进行识别。　　本文采用支持向量机(Support Vector Ma―chine，SVM)进行中国人名自动识别并在此基础上进行了改进。SVM是Vapnik[6]在统计学习理论的基础上发展起来的一种新的通用学习方法，它已表现出很多优于已有机器学习方法的性能，如具有很好的泛化能力、高维处理能力、强大的非线性处理能力等，被广泛应用与很多模式识别领域[7]。本文结合中文文本中人名的特点，对训练语料中的每个字进行分类标注及词性标注，然后抽取单字本身、词性、该字是否在姓氏表中、单字用作姓名的概率及其上下文信息作为特征向量的属性，并将其转换为二进制表示，并在此基础上建立训练集，通过选取合适的核函数，实现对测试语料中每个字的分类标注，最后根据分类结果识别出人名。　　我们通过对SVM的识别结果进行分析发现，SVM和其他分类器一样，出错样本点多数集中在分界面附近，如果能采用一种较好的方法对分界面附近的样本进行分类，可望进一步改善中国人名识别的效果。概率统计方法是未登录词识别研究中较为成熟的技术，已经得到了广泛的应用，本文提出一种基于SVM和概率统计组合算法的人名识别模型，对样本在空间的不同分布使用不同的方法可以取得比单独使用SVM或概率统计更好的分类效果。具体地说，对于距离SVM最优超平面较近的测试样本采用概率统计的方法代替SVM方法进行识别；对于距离最优超平面较远的样本仍然使用SVM分类。实验表明，该混合模型综合了SVM和概率统计两种方法的优势，结果好于单纯的SVM方法和概率统计方法。系统开式综合指标F－值比单纯使用支持向量机方法提高了1.51％。　　　　2　基于SVM的人名识别模型　　　　首先我们对训练语料进行自动分词和词性标注，然后按字抽取特性建立训练集并选取合适的Kernel函数，建立用SVM识别人名的机器学习模型。　　　　2.1支持向量机SVM 　　sv为支持向量，b是分类阈值，可用任一支持向量或通过两类中任一对支持向量取中值求得。　　SVM本身是解决两类分类问题的，对于多类(k类)划分问题可将其转化为两类划分问题加以处理，目前主要有两种方法：(1)Pairwise方法[9]：在任意两个类别之间构造一个二值分类器，从而生成k(k-1)／2个二值分类器，每个分类器训练两种不同类别的