基于条件随机场的中文人名性别识别研究..docVIP

基于条件随机场的中文人名性别识别研究..doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于条件随机场的中文人名性别识别研究.

基于条件随机场的中文人名性别识别研究* 赵晓凡1,牛承志2,刘永革1 (1.安阳师范学院计算机与信息工程学院,河南 安阳 455002; 2.郑州大学第一附属医院信息科,河南 郑州 455000) E-mail:zxfanfan922@ 摘 要:中国人名性别的自动识别可以应用在自然语言处理领域,是命名实体识别的一个具体应用。文章根据人名的结构和用字信息,构建人名标注集,选择6组特征模板集,利用条件随机场进行模型训练,在231337个人名数据库中经过封闭测试,正确率可以达到90%以上。实验证明:在人名库中识别性别,名字用字的作用要高于姓氏用字,且从机器学习的角度来说性别差异可以体现在人名用字中。 关键字:性别识别;中文人名要素;命名实体识别;特征选择;条件随机场 中图分类号:TP391 文献标识码:A CRFs-based approach to gender recognition of Chinese name ZHAO Xiao-fan1, NIU Cheng-zhi2, LIU Yong-ge1 (1.School of Computer and Information Engineering, Anyang Normal University, Anyang Henan 455002; 2.The Information Department of the First Affiliated Hospital of Zhengzhou University,Zhengzhou 455000) E-mail:zxfanfan922@ Abstract: Gender recognition of person name can be used in natural language processing which is a specific application of Named Entity Recognition. Gender recognition method makes use of the structure and vocabulary information of Chinese personal name. The experiment on the basis of CRFs is designed by constructing person name annotation set and selecting suitable feature model using NLP technology. Through the closed test on 231337 person names 90.08% accuracy is got. The experiment proves that the effect of the lastname in gender recognition is higher to the role of the firstname and gender differences can be found from the names based on machine learning Key words: gender recognition; Chinese name element; Named Entity Recognition; feature selection; conditional random fields 引言 目前命名实体识别(Named Entity Recognition,NER)仍然是中文信息处理的难点和热点,对未登录词的处理,其结果往往很难满足需求。人名的出现是影响未登录词识别正确率的关键。在《人民日报》1998年1月的语料库(共计2 305 896字)中,平均每100个字包含未登录词1.192个(不计数词、时间词),其中61.34%的未登录词是人名。 人名作为一个符号,对单个的个体应该具有很高的辨识度。按照日常生活的经验和人们的习惯,起名用字往往与性别相关。文献[5]对 7 万中国人名的 90 个常用尾字进行非参数检验后认为:男女人名用字有显著性别差异。本文是命名实体识别的一个应用,尝试用条件随机场(Conditional Random Fields)模型对人名用字的男女性别差异按照机器学习的方法进行训练,分析由人名自动识别性别的可能性与可行性。 Conditional Random Fields(CRF) CRF is an undirected graph model or a Markov random field, which uses a f

您可能关注的文档

文档评论(0)

ds2fdsx + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档