- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于实例学习的人名识别方法.pdf
一种基于实例学习的人名识别方法1
朱丽丽郑家恒
山西大学计算机与信息技术学院,山西,030006
E删I:di噌血90809@126Ⅻ
摘要:人名识gⅡ是自然语言处理锈域的—个重要的子任务。实例学习是机器学习中的—种常见的方法.本文在对大量
语料的语占现象的统计与分析的基础匕提出了—种用实例描述语言现象,用相似度计算识剐人名的方法。实验表明,
该方法具有一定的可行性。
关键宇:人名识别;实例学习;相似度计算
IdentificationofChineseNamesBasedon
ExemplarLearning
Zhu
Lfli。,ZhengJiahen92
Chim
in
Abstract:IdentificationofChill嘲mm嚣iso嘴of tasksChineseinformation
important pmcesS{11鲁
andstatistics inlroducemethod ofChinesenallles
we a ofidentification based∞
analyses ofcorpora.Then
resultissatisfaction.
exemplarlearning.Intheopentest,the
words:identificationofChinese
Key 13ⅢrleS:exemplarlearning:similaritycomputing
1引言
专有名词识别是中文信息处理领域的—个重要子任务。根据我们对150万字人民日报语料统计
结果显示,人名占专有名词的35.7%。因此。人名识别技术的突破对于提高汉语分词的准确性咀及
句法分析、信息抽取等后续的中文信息处理领域,具有很重要的作用。
目前,对于中文人名识别的研究已经比较深入.大致分为基于规则的方法、基于统计…的方法
以及统计与规则相结合的混合策略…的方法。总体来说,人名识别技术主要都是利用了两方面信息:
(1)中文人名自身具有—定的构成特征与统计特征.例如:汉族姓名=姓氏+名字.并且姓氏用字相
上下文环境具有一定的特征信息。例如,经常与身份词(“总理■“老师”等)、具有指示作用的动
词(“说”、“指出”等)或是副词(“已经”、“也”等)接连出现。
以上两方面的信息是识别人名的关键资源。无论采用规则或是统计,还是规则结合统计的方法,
都是试图建立—种语言模型“1,即尽可能准确的反映、记录并使用自然语言中存在的规律的语言模
型。现有的模型中,规则的方法缺点在于规则无法穷尽,.ILt间存在冲突;而统计的方法往往有计
算量大的缺点。因此,我们避开这两种方法的劣势,不把具体的语言现象抽象成规则或是统计模型,
1本课题得到国家自然科学基金项目;山西省自然科学基金项目资助.
一134—
而是宜接利用语言本身。本文采用实例学习的思想,在对大量语料进行语言现象统计和分析的基础
上。采用实例描述语言现象.尝试用相似度计算来进行人名识别.该方法算法实现简单。不用建立
复杂的模型.并且移植性较好。
2 相关语言现象的统计与分析
2.1人名类型特征和结构特征
我们统计了人民日报的150万语料,其中有8821个人名。主要分为两大类中国人名和外国译名
其中外国译名包括非汉族类人名(主要是西方人名)和
文档评论(0)