中文姓名的自动辨识-中文信息学报.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中 文 信 息 学 报 第 卷 第 期 中文姓名 的 自动辨识② 孙茂松 黄 昌宁 高海燕 方 捷 清华大学计算机科学系 十烟 台大学计算机应用系 【 要 】 文 名 的辫识对汉 自动 词 究具 重 意义 本文 出 了一种 文 摘 中 姓 语 分 研 有 要 提 在 中 文本 自动辫识 文姓名 的 法 我们 新 华 讯 新 闻 库 随 抽 了 个 包 中 中 算 从 通 社 语料 中 机 取 匆 含 。 中文牲名 的 句子作 为 测 试样本 实验结 果表 明 , 召 回率达 到 了 卯 词 文 名 自动 识 , 生词 处理 , 汉 动 分词 , 文 息处理 关键 中 牲 辫 语 自 中 信 己 誉 二刁 。 汉语 自动分词是 中文信息处理 的基础课题之一 虽 已有十年 的研究历史 , 但始终未见 真正实用 的系统面世 困扰此项研究 的困难主要有二 歧义切分 问题与生词 处理 问题 本文所讨论 的属 于第二个 问题 的范畴之 内 中文姓名一般来说具有任意性 , 或典雅浑 成 , 或粗俗率真 , 或 简单 明了, 或深 奥 晦涩 , 洋洋洒洒 , 繁若 星 沙 , 随心所 欲 , 实难预 。 期 无论分词 词 典如何 庞大 , 都不可 能用 穷举 的办法将 它们囊 括进 去 著名人物 除外 中文姓名在文章 中的 出现频率虽然 不高 , 但绝 非可 以忽视 由于 中文姓名 不象 印欧语 言那 样可 以通过大写字母来辨识 , 其 中的姓 氏和 名字用 字不少又可 同时 以普通 词 或普通词一部 。 分的身分参与句子 的活动 , 因此如果不予处理 , 将 导致 为数可观 的分词错误 例如 郑杰士来 时遇见 了林红 。 例 刘清楚楚动人 例 利用从左 向右 扫描 的最大 匹配法进行切分 , 得 到 郑 杰 士 来 时 遇 见 了 林 红 刘 清楚 楚 动人 注 意 , “ 士 ” “ ” 被 生 。 因 “ ”

文档评论(0)

136****3783 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档