决策树在中文姓名信息提取中的应用研究.pdfVIP

下载本文档

5
0
约7.73千字
约 4页
2015-08-13 发布于重庆
举报
版权申诉

决策树在中文姓名信息提取中的应用研究.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

决策树在中文姓名信息提取中的应用研究.pdf

第21卷第2期成都信息工程学院学报 Vol.21No.2 2006年4月 JOURNALOFCHENGDUUNIVERSITYOFINFORMATIONTECHNOLOGY Apr.2006 文章编号:1671-1742(2006)02-0261-04 决策树在中文姓名信息提取中的应用研究史永刚，左志宏 (电子科技大学计算机学院，四川成都610054) 摘要:提出并实现了一种中文姓名信息提取方法，该方法首先根据姓氏和名的用字概率信息，将姓氏作为抽取的触发条件，在文本中初步提取姓名。然后再充分利用中文姓名的上下文信息及姓名用字之间的关联程度的信息，选取特征作为决策树测试的属性列表，并将初步提取出来的姓名是否是真实姓名(bool型的值:yes或no)作为决策树要预测的目标属性，组建基于ID3算法的决策树进一步提取出正确的姓名，实验结果表明，该方法具有很好的召回率和准确率。关键词:自然语言处理;中文性名信息提取;决策树;ID3算法中图分类号:TP391.1 文献标识码:A 1 引言在自然语言处理中，汉语的书面形式是连续书写的，词与词之间没有自然的界限，自动分词就成了中文信息处理的基础工程，而自动分词中，歧义切分字段的判定以及未登录词(人名、地名、机构名、新使用频率词、新语和专业术语)的识别及提取，一直是自动分词研究的困难所在，也成为许多自动分词系统走向应用的瓶颈。中文姓名在未登录词中占很大比例，统计表明:中文姓名占未登录词总数的巧%。这说明，识别好中文姓名对未登录词识别是极其重要的。目前有关中文姓名识别问题的研究已经比较深人，其中比较典型的算法有(1)基于规则的方法，它对中文姓名的构成特征及其上下文信息特征进行分析归纳，建立起规则集。纯粹采用规则机制的模型比较少，一般要结合统计方法来进行识别。(2)基于统计的方法，该方法使用从姓名样本库或真实文本语料库中得的关于姓氏用字概率与名字用字概率等大量的统计数据信息进行识别。(3)混合策略，它采用统计方法对姓名进行初次识别。利用规则机制对其进行校正过滤。还有其它一些方法，如利用结合性识别姓名等。在这些常规方法的基础之上，提出一种在切分、词性标注之后，结合决策树算法的中文姓名信息提取方法。先对潜在姓名进行提取，然后结合决策树算法提高其准确率。在提取阶段，利用姓和名的用字概率信息，抽取出潜在的姓名，然后充分利用提取的潜在姓名周围的上下文信息，运用机器学习中的基于ID3的决策树算法，把判断潜在姓名是否是真实姓名看作是两分类问题，利用已标注的熟语料来训练该分类器;采用该方法不需人工提取和维护规则，并且实验表明，可以取得比传统的统计加规则更好的识别结果。 2 中文姓名提取的常规方法 2.1 中文姓名的构成规律中文姓名一般由两个字或三个字组成，第一字为姓氏字(复姓为前两字)，其后的一到两个汉字为名用字。据统计表明，中文姓名在用字上也有一定规律:一方面某些字频频出现在姓名中，如在姓氏用字中，虽然姓氏辞典中列举了几千个姓氏字，但目前实际使用的不过几百个，而张、王、李、赵、刘五个姓竟占了32 ;另一方面，某些字又从不被用作姓名用字，如最、仅、紧、以、且等字。尽管姓氏的总用字比较少，但由于姓氏用字中的大部分都不仅仅只作姓氏，故姓氏不能从字表面来确定。 2.2 中文姓名的初步提取中文姓名的初步提取，就是利用姓氏作为驱动，根据姓和名的用字频率信息，发现文本中的姓名，由于姓氏字还可以用于其它字串，所以初步的提取结果中必然包含了大量的非姓名字串。在提取阶段，需要使用中文姓名中的姓和名的用字概率信息。收稿日期:2005-04-21 262 成都信息工程学院学报第21卷使用如下假设与定义考虑到中文姓名的构词特点，做如下假设:(1)中文姓名长度最长为4字(双姓加双名);(2)中文姓名长度最短为2字(单姓加单名);(3)双名成词视为单名处理。设:含中文姓名的词串为单名情况sn=Wl.W2.W3.W4 双名情况d