基于互信息的中文姓名识别方法_黄德根.pdfVIP

基于互信息的中文姓名识别方法_黄德根.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于互信息的中文姓名识别方法_黄德根.pdf

第44卷第5期 Vol. 44, No. 5 2 0 04 年9 月 Jour nal of Dalian University of Technology Sept. 2 0 0 4 : 1000-8608(2004) 05-0744-05 基 互信息的中文姓名识别方法 * , , ( 大连理工大学 计算机科学与工程系, 辽宁 大连 116024 ) : 提出并实现了一个基于互信息的中文 名识别方法. 该方法充分挖掘 名和其上下 文信息的关联程度以及 名用字之间关联程度的信息, 引入互信息对其进行定量的描述; 提 出中文 名的上下文互信息 内、部互信息等概念, 并对其建立了动态评价函数. 开放测试结 果表明, 该方法有效地提高了中文 名识别的效果, 保证了较高的精确率和召回率. : 中文 名识别; 互信息; 上下文互信息; 内部互信息 : TP391. 12; H087 : A [4、5] 0  引 言 姓名识别起到校正或过滤筛选的作用 ; 在统计 意义上对其进行分级, 从而影响到过滤阈值的确 在汉语自动分词研究领域中, 未登录词的自 [3] 定 ; 采用姓名的接续可信度定量描述. 动识别是主要难点之一. 目前有关中文姓名识别 本文在对真实文本统计分析的基础上, 给出 问题的研究已经比较深入, 其中比较典型的算法 中文姓名的上下文互信息、内部互信息等概念, 定 有: ( 1) 基 规则的方法. 它对中文姓名的构成特 量描述姓名和其上下文信息的关联程度以及姓名 征及其上下文信息特征进行分析归纳, 建立起规 用字之间的关联程度, 同时建立相应的评价函数 则集. 纯粹采用规则机制的模型比较少, 一般要 和交叉姓名评价函数, 并在识别算法中引入动态 结合统计方法来进行识别. (2) 基 统计的方法. 过滤阈值. 该方法使用从姓名样本库或真实文本语料库中得 到的关 姓氏用字概率与名字用字概率等大量的 1 互信息的引入 [ 1~3] 统计数据信息进行识别 . (3) 混合策略. 它采 互信息在信息论中是作为衡量两个信号关联 用统计方法对姓名进行初次识别, 利用规则机制 [4、5] 程度的一种尺度, 后来引申为对两个随机变量间 对其进行校正过滤 . 还有其他一些方法, 如利 [6] 的关联程度进行统计描述, 可表示成这两个随机 用结合性识别姓名 . 变量的概率的函数. 设I (x , y ) 为随机变量x 和y 中文姓名的姓氏用字相对比较集中, 名字

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档