_基于角色标注的中国人名自动识别研究.docVIP

下载本文档

9
0
约8.49千字
约 10页
2015-08-29 发布于河南
举报
版权申诉

_基于角色标注的中国人名自动识别研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

_基于角色标注的中国人名自动识别研究.doc

基于角色标注的中国人名自动识别研究摘要：中国人名的识别是中文未登录词识别的重点和难点，目前的解决方案自身存在一些本质的缺陷，实际效果还难以满足实际需求。本文提出了一种基于角色标注的中国人名自动识别方法。即：利用从语料库中自动抽取的角色信息，采取Viterbi算法对切词结果进行角色标注，在角色序列的基础上，进行模式最大匹配，最终实现中国人名的识别。通过对16M字节真实语料库的封闭与开放测试，该方法取得了接近98%的召回率，准确率也得到了实际提高。实验数据证明：该方法是行之有效、能够成功解决中国人名的自动识别问题。关键词：未登录词识别；中国人名；角色标注引言词语分析是中文自然语言处理的前提和基础，中文词语分析的研究已经取得较大的进展，但在处理含有未登录词的文本时，其结果一般难以满足实际的需求。未登录词的错误识别，不仅仅使自身无法正确识别召回，而且往往与前后的其他字词交叉组合，严重地影响其他词的正确识别，从而直接的降低了词语分析乃至整个句子分析的正确率。未登录词的自动识别已经成为了中文词语分析质量的实际瓶颈。中国人名在未登录词占有较大比重，也是未登录词识别的主要难点。根据我们对人民日报1998年1月的语料库（共计2,305,896字）进行的统计，每100字中含未登录词1.192个(不计数词、时间词)，其中48.6%的是中国人名。而中国人名的召回率仅为68.77%[1]，其切分错误高达50%以上，对所有分词错误进行统计，姓名错误占了将近90%[2]。因此中国人名的自动识别是未登录识别问题的重点和关键，中国人名识别问题的解决也会改善汉语词语分析、句法分析乃至中文信息处理的最终质量。 1.1中国人名自动识别的困难中国人名数量众多，规律各异，有很大的随意性。其主要的困难在于：1．中国人名构成的多样性；2．人名内部相互成词；3．人名与其上下文组合成词；4．歧义理解。 1．中国人名构成的多样性：（1）姓+名：张华平、张浩、西门吹雪、诸葛亮；（2）有名无姓：“春花点点头”；“杰，你好吗？”（3）有姓无名：“刘称赵已离开江西”；(4) 姓+前后缀刘总、张老、小李、邱某；(5)港台已婚妇女：范徐丽泰、彭张青。 2．人名内部相互成词，指的是姓与名、名与名之间本身就是一个已经被收录的词。如：[王国]维、[高峰]、[汪洋]、张[朝阳]。根据我们对80,000条中国人名的统计，内部成词的比例高达8.49%。 3．人名与其上下文组合成词的情况包括人名的首部（姓或名的首字）与人名的上文成词和人名的尾部（姓或名的首字）与人名的下文成词。例如：“这里[有关]天培的壮烈”；“费孝通向人大常委会提交书面报告”。在人民日报1998年1月的语料库中，这种情况接近200例。 4．歧义理解的主要是由同源冲突[3]引起的：例如：“河北省刘庄”；中的“刘庄”就是中国人名与地名的歧义，“周鹏和同学”存在人名“周鹏”和“周鹏和”的歧义[4]。 1.2现有解决方案及其不足针对中国人名的自动识别问题，人们已经作过很多的探索，并提出了多种解决方案。根据其使用的方法不同，这些方案大致可以分为三种：规则方法[2,4,5]、统计方法[6]以及规则与统计相结合的方法[1,7,8]。规则方法主要利用两种信息：姓氏用字分类[5]和限制性成分[8]。即：分析姓名用字，驱动对姓名的识别过程，并采集姓名前后相关的成分，对姓名的前后位置进行限制。小规模测试的结果表明，其准确率可以高达97%[4]。在缺乏特大规模熟语料库的时候，规则方法是唯一可行的方法。统计方法主要是针对姓名语料库来训练某个字作为姓名组成部分的概率值，并用它们来计算某个候选字段作为姓名的概率，其中概率值大于一定阈值的字段为识别出的中国人名[6]。规则与统计相结合的办法，可以通过概率计算减少规则方法的复杂性与盲目性，而且可以降低统计方法对语料库规模的要求。目前的研究基本上都是采取规则与统计的方法，不同之处仅仅在于规则与统计的侧重不同而已。现有解决方案存在着本身固有的一些不足：首先，一般采取“单点（首或尾）激活”[4]的机制来触发人名的识别处理。即扫描到姓氏用字、职衔、称呼等具有明显姓名特征的字段时，才将前后的几个字列为候选姓名字段进行人名的识别。那些不具备明显特征的姓名往往会被丢失，如上文中提到的“有名无姓”的人名。其次，姓名候选字段大都是选取切分后的单字碎片[1,2,4,6]，也有研究者将少量的二字或多字词纳入候选字段的选取范围[4]。在这种选取机制的作用下，人名内部成词以及人名与上下文成词的情况基本上是无法召回的。根据上文提供的统计数据，由于这两种机制所引起的召回率损失将不小于10%。最后，人名识别采取的大量规则往往代价昂贵而且难以扩展。文献[4]中，研究者就是从10万条人名库、2亿字的真实语料库中将姓名用字分为了9类