- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于互信息的中文姓名识别方法_黄德根.pdf
第44卷第5期 Vol. 44, No. 5
2 0 04 年9 月 Jour nal of Dalian University of Technology Sept. 2 0 0 4
: 1000-8608(2004) 05-0744-05
基 互信息的中文姓名识别方法
*
, ,
( 大连理工大学 计算机科学与工程系, 辽宁 大连 116024 )
: 提出并实现了一个基于互信息的中文 名识别方法. 该方法充分挖掘 名和其上下
文信息的关联程度以及 名用字之间关联程度的信息, 引入互信息对其进行定量的描述; 提
出中文 名的上下文互信息 内、部互信息等概念, 并对其建立了动态评价函数. 开放测试结
果表明, 该方法有效地提高了中文 名识别的效果, 保证了较高的精确率和召回率.
: 中文 名识别; 互信息; 上下文互信息; 内部互信息
: TP391. 12; H087 : A
[4、5]
0 引 言 姓名识别起到校正或过滤筛选的作用 ; 在统计
意义上对其进行分级, 从而影响到过滤阈值的确
在汉语自动分词研究领域中, 未登录词的自 [3]
定 ; 采用姓名的接续可信度定量描述.
动识别是主要难点之一. 目前有关中文姓名识别
本文在对真实文本统计分析的基础上, 给出
问题的研究已经比较深入, 其中比较典型的算法
中文姓名的上下文互信息、内部互信息等概念, 定
有: ( 1) 基 规则的方法. 它对中文姓名的构成特
量描述姓名和其上下文信息的关联程度以及姓名
征及其上下文信息特征进行分析归纳, 建立起规
用字之间的关联程度, 同时建立相应的评价函数
则集. 纯粹采用规则机制的模型比较少, 一般要
和交叉姓名评价函数, 并在识别算法中引入动态
结合统计方法来进行识别. (2) 基 统计的方法.
过滤阈值.
该方法使用从姓名样本库或真实文本语料库中得
到的关 姓氏用字概率与名字用字概率等大量的 1 互信息的引入
[ 1~3]
统计数据信息进行识别 . (3) 混合策略. 它采
互信息在信息论中是作为衡量两个信号关联
用统计方法对姓名进行初次识别, 利用规则机制
[4、5] 程度的一种尺度, 后来引申为对两个随机变量间
对其进行校正过滤 . 还有其他一些方法, 如利
[6] 的关联程度进行统计描述, 可表示成这两个随机
用结合性识别姓名 .
变量的概率的函数. 设I (x , y ) 为随机变量x 和y
中文姓名的姓氏用字相对比较集中, 名字
您可能关注的文档
最近下载
- 2025甘肃甘南州专业化管理的村党组织书记招聘45人笔试备考题库及一套答案详解.docx VIP
- 05G525_吊车轨道联结及车挡 .docx VIP
- 《交流电机的维护与检修》课件.ppt VIP
- 妇产科学教学课件:女性生殖系统生理.ppt VIP
- (通用)大学生人文知识竞赛题库及答案(通用版).pptx VIP
- DB42╱T 1528.1-2019 湖北省农业用水定额 第1部分:农田灌溉用水定额.docx VIP
- 财务风险管理及防范对策研究.pptx VIP
- 儿童特应性皮炎的药物治疗.pptx
- 一种在无有机模板剂条件下合成MCM-49型沸石分子筛的方法.pdf VIP
- 三相异步电动机的铭牌.pptx VIP
文档评论(0)