基于NaiveBayes藏文人名性别自动识别.docVIP

下载本文档

17
0
约2.89千字
约 7页
2018-08-28 发布于福建
举报
版权申诉

基于NaiveBayes藏文人名性别自动识别.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于NaiveBayes藏文人名性别自动识别

基于NaiveBayes藏文人名性别自动识别　　[摘要]藏文指代消解是藏文信息处理的重要内容也是难点之一。本文利用Naive Bayes模型实现了藏文人名性别的自动识别，从而达到人称代词消解的目的。本方法根据人名的结构和用字（syllable）信息，利用Naive Bayes模型进行机器学习，对3463个藏族人名数据进行开放语料的测试，男女综合人名的准确率达到了99.31% 。　　[关键词]藏族人名；机器学习；Naive Bayes；自动识别；　　中图分类号：S574 文献标识码：A 文章编号：1009-914X（2018）08-0019-01 　　1.引言　　本文尝试用朴素贝叶斯模型对藏文人名用字的男女性别差异按照机器学习的方法进行训练，分析人名自动识别性别的可能性与可行性，藏文人名性别自动识别的开放测试结果优于汉文人名性别的自动识别。　　2.藏族人名的命名方式与结构　　藏族的祖先有6个分支，每个都有自己的号，这些号分别叫色（）、门（）、当（）、冬（）、扎（）、知（），各分支的成员以号为自己的姓。藏族跨入封建社会后，生产力的发展打碎了氏族集团的经济、政治结构，“户”成了独立的经济单位，从此，“氏族”观念渐渐地淡漠了，“户”的地位明显地突出。因此人们的姓氏尽管也有沿袭历史上的习惯按氏族的号为姓的，但绝大多数都是以“房”（帐）名为姓氏。　　3.性别自动识别算法　　藏族人名性别自动识别的任务可以视为性别分类问题，在分类方法中Naive Bayes方法是基于Bayes定理和特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入输出的联合概率分布；然后基于此模型，对给定的输入（姓名）x，利用Bayes定理求出后验概率最大的输出（性别）y。　　Naive Bayes法通过训练数据集学习联合概率分布。具体地，学习以下先验概率分布以及条件概率分布。先验概率分布为：　　（4.1）　　条件概率分布为：　　（4.2）　　于是学习到联合概率分布　　Naive Bayes法对条件概率分布作了条件独立性的假设。具体地，条件独立性假设为：　　（4.3）　　Naive Bayes法分类时，对给定的输入，通过学习到的模型计算后验概率分布，将后验概率最大的类作为的类输出。后验概率计算根据Bayes定理进行：　　（4.4）　　将式（4.3）代入式（4.4）有　　（4.5）　　于是，Naive Bayes分类器可表示为　　（4.6）　　在式（4.6）中分母对所有都是相同的，所以，　　（4.7）　　4 实验过程与结果分析　　4.1 语料库的建设　　实验中的大部分语料来自青海省藏语术语标准化审定委员会编译的《藏语人名音译》（藏汉对照）一书，本书共收录姓氏800余条，人名5200多条，都是藏族人名中最为典型的人名。因为本书中未收录四音节、多音节人名，为此删添了部分语料，终建成3463条藏族人名的语料，2449条为训练语料1014条为测试预料。上述人名语料基本格式不符合机器学习的训练要求，进行相应的预处理之后，抽取其中符合实验要求的人名数据。　　4.2 特征模板的选取　　Naive Bayes属于有监督的机器学习方法，因此设计能充分体现藏族人名要素序列特性的特征模板是决定训练模型识别性能优劣的关键。根据人名本身结构和用字（音节）信息，定义特征提取器，用它来训练分类器，并为人名添加标签。　　通过多次实验发现姓氏对人名的性别识别贡献很小，而且还发现藏文人名的姓名用字的下文的有效范围较上文的更大。从多种特征模板集中选定双音节人名的S0、S1、S0S1；三音节人名的S0S1、S1S2、S2；四音节人名的S0S1、S2S3、S0S2；多音节人名的ES2S3、ES0S2共4组贡献较大的特征模板进行训练。S0、S1、S3、S4表示人名中的音节顺序。如“”这样的四音节人名提取“”、“”、“”的特征。ES2S3、ES0S2表示多音节人名中后四个音节的顺序。　　4.3 实验结果　　通过对上述语料中的不同测试对象进行训?模型的封闭测试，发现在本语料的数量级上预测结果都很不错。　　通过NaiveBayes方法进行开放语料的测试男女综合人名的准确率达到了99.31%，分析以往实验中错误的性别标注发现，藏族双音节人名中有一些用字较为中性化，例如：“”、“”既在男性人名中出现也在女性人名中出现，这种人名的存在使人名性别混淆因此中性化人名的用字特征会使模型变得复杂，难以比拟真实的情况而导致各个模型有不同程度的过拟合。通过实验发现朴素贝叶斯方法可以在较少的语料当中基本能够避免这种弊端，给出较符合人为性别判断的结果。从实验结果可以看出NaiveBa