关于词语消歧的分层次汉字简繁转换系统.pdfVIP

关于词语消歧的分层次汉字简繁转换系统.pdf

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于词语消歧的分层次汉字简繁转换系统 刘汇丹 吴健* (中国科学院软件研究所基础软件国家工程研究中心,北京 100190) 1、引言 近些年来,两岸四地在科技、文化、教育、新闻、出版等领域的交流与合作日益广泛和深入,造成 海峡两岸信息交换的剧增。但是文字制度上几十年的差异,造成了两岸在常用语、专业术语、外国人地 名翻译等各方面都存在着差异,另外繁体字和简体字数量都比较大,限于普通人的文字知识水平,难免 造成交流上的困难。所以迫切需要一套汉字简繁转换系统。 本文对汉字简繁转换中涉及的众多问题进行讨论,提出基于词语消歧的分层次汉字简繁转换方案, 并据此实现了一个简繁转换系统。 2、汉字简繁转换的复杂性 简单的来看,汉字简繁转换问题主要在于汉字简化时将多个繁体字做了归并,从而造成一个简体字 对应多个繁体字的情形(同时也存在一个繁体字对应多个简体字的情况)。多目标字的存在造成了简繁 转换的歧义。从转换的角度来看,如果存在转换歧义,自然而然要用更大的语言单位的转换来消除这种 歧义:单字转换的歧义要用词语来消除,词语转换的歧义要用短语来消除。完整的转换过程涉及到从底 层的编码到上层的字、词(词汇)、语等多方面的问题,下面对这些问题做统一的讨论。 2.1 编码字符集 GB2312-80 只收录了简体中文6763 个常用汉字和次常用汉字[1],TCA-CNS11643-1992 收录汉字 13053 个,两个字符集不仅都没有包含所有的简体字和繁体字,前者未收录所有的简体字,后者也没有收录所 有的繁体字。导致的问题就是在做简繁转换的时候必定要做编码转换,并且有可能存在 GB 编码的简体 源字却不存在相应的 BIG5 编码的繁体目标字。虽然它们的衍生字符集增收了不少的汉字,使得此问题在 一定程度上有很大的改观,但是限于两岸四地用户的使用习惯,强迫繁体用户使用 GB 编码或者简体用 户使用 BIG5 编码都是不合适的。 国际标准编码字符集Unicode/ISO-IEC10646 (以下简称Unicode )为世界上所有的文字进行统一的编 码[2],给每一个字符唯一的一个编码表示。Unicode 4.0 按照 CJK 认同规则共收录汉字 70205 个,其中在 基本多文种平面(BMP )内收录汉字27484 个,包含了现有规范中所有的简体字以及日常所用的繁体字, 非 BMP 平面内的汉字一般用于大型工具书、古籍整理等类似的应用场合。所以,基本上 BMP 平面就可 * 作者简介:刘汇丹(1982 -) ,男,硕士,助理工程师,主要研究方向是系统软件与中文信息处理;吴健(1962 -) ,男,研 究员,主要研究方向是系统软件与中文信息处理。 以满足简繁转换的需求。 在简繁转换中采用 Unicode 字符集将有如下优点: Unicode 将简体字和繁体字都收录了,可以在同一个字符集内完成简繁转换; 在 Unicode BMP 平面内解决简繁转换问题,可以采用等长编码,方便系统实现。 Unicode 对所有文字统一编码,在转换包含其它文种的文档时可以避免信息丢失; Unicode 是国际标准,两岸四地用户对其都有较高的认同感,避免了简体字用 BIG5 编码或者繁 体字用 GB 编码的不习惯。 因此,在简繁转换中采用Unicode 是比较好的选择。 2.2 单字转换 单字转换层面的主要的问题,一是简繁字范围的确定,二是多目标字转换如何消歧。 2.2.1 简繁汉字范围的确定 2.2.1.1 字形差异 表1 关联字示例 概念 示例字 概念 示例字 正异字 嘆 vs 歎 正讹字 盗 vs 盜 繁简字 恳 vs 懇 新旧字 骨 vs 中日字 價 vs 形近字 辨 vs 辧 古今字

文档评论(0)

00625 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档