基于互信息的中文姓名识别方法_黄德根.pdfVIP

下载本文档

2
0
约 5页
2015-08-13 发布于重庆
举报
版权申诉

基于互信息的中文姓名识别方法_黄德根.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于互信息的中文姓名识别方法_黄德根.pdf

第44卷第5期 Vol. 44, No. 5 2 0 04 年9 月 Jour nal of Dalian University of Technology Sept. 2 0 0 4 : 1000-8608(2004) 05-0744-05 基互信息的中文姓名识别方法 * , , ( 大连理工大学计算机科学与工程系, 辽宁大连　116024 ) : 提出并实现了一个基于互信息的中文名识别方法. 该方法充分挖掘名和其上下文信息的关联程度以及名用字之间关联程度的信息, 引入互信息对其进行定量的描述; 提出中文名的上下文互信息内、部互信息等概念, 并对其建立了动态评价函数. 开放测试结果表明, 该方法有效地提高了中文名识别的效果, 保证了较高的精确率和召回率. : 中文名识别; 互信息; 上下文互信息; 内部互信息 : TP391. 12; H087 : A [4、5] 0　引　言姓名识别起到校正或过滤筛选的作用 ; 在统计意义上对其进行分级, 从而影响到过滤阈值的确在汉语自动分词研究领域中, 未登录词的自 [3] 定 ; 采用姓名的接续可信度定量描述. 动识别是主要难点之一. 目前有关中文姓名识别本文在对真实文本统计分析的基础上, 给出问题的研究已经比较深入, 其中比较典型的算法中文姓名的上下文互信息、内部互信息等概念, 定有: ( 1) 基规则的方法. 它对中文姓名的构成特量描述姓名和其上下文信息的关联程度以及姓名征及其上下文信息特征进行分析归纳, 建立起规用字之间的关联程度, 同时建立相应的评价函数则集. 纯粹采用规则机制的模型比较少, 一般要和交叉姓名评价函数, 并在识别算法中引入动态结合统计方法来进行识别. (2) 基统计的方法. 过滤阈值. 该方法使用从姓名样本库或真实文本语料库中得到的关姓氏用字概率与名字用字概率等大量的 1　互信息的引入 [ 1～3] 统计数据信息进行识别 . (3) 混合策略. 它采互信息在信息论中是作为衡量两个信号关联用统计方法对姓名进行初次识别, 利用规则机制 [4、5] 程度的一种尺度, 后来引申为对两个随机变量间对其进行校正过滤 . 还有其他一些方法, 如利 [6] 的关联程度进行统计描述, 可表示成这两个随机用结合性识别姓名 . 变量的概率的函数. 设I (x , y ) 为随机变量x 和y 中文姓名的姓氏用字相对比较集中, 名字