- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中 文 信 息 学 报
第 卷 第 期
中文姓名 的 自动辨识②
孙茂松 黄 昌宁 高海燕 方 捷
清华大学计算机科学系 十烟 台大学计算机应用系
【 要 】 文 名 的辫识对汉 自动 词 究具 重 意义 本文 出 了一种 文
摘 中 姓 语 分 研 有 要 提 在 中
文本 自动辫识 文姓名 的 法 我们 新 华 讯 新 闻 库 随 抽 了 个 包
中 中 算 从 通 社 语料 中 机 取 匆 含
。
中文牲名 的 句子作 为 测 试样本 实验结 果表 明 , 召 回率达 到 了 卯
词 文 名 自动 识 , 生词 处理 , 汉 动 分词 , 文 息处理
关键 中 牲 辫 语 自 中 信
己 誉
二刁
。
汉语 自动分词是 中文信息处理 的基础课题之一 虽 已有十年 的研究历史 , 但始终未见
真正实用 的系统面世 困扰此项研究 的困难主要有二 歧义切分 问题与生词 处理 问题
本文所讨论 的属 于第二个 问题 的范畴之 内 中文姓名一般来说具有任意性 , 或典雅浑
成 , 或粗俗率真 , 或 简单 明了, 或深 奥 晦涩 , 洋洋洒洒 , 繁若 星 沙 , 随心所 欲 , 实难预
。
期 无论分词 词 典如何 庞大 , 都不可 能用 穷举 的办法将 它们囊 括进 去 著名人物 除外
中文姓名在文章 中的 出现频率虽然 不高 , 但绝 非可 以忽视 由于 中文姓名 不象 印欧语 言那
样可 以通过大写字母来辨识 , 其 中的姓 氏和 名字用 字不少又可 同时 以普通 词 或普通词一部
。
分的身分参与句子 的活动 , 因此如果不予处理 , 将 导致 为数可观 的分词错误 例如
郑杰士来 时遇见 了林红 。 例
刘清楚楚动人 例
利用从左 向右 扫描 的最大 匹配法进行切分 , 得 到
郑 杰 士 来 时 遇 见 了 林 红
刘 清楚 楚 动人
注 意 , “ 士 ” “ ” 被 生 。 因 “ ”
文档评论(0)