繁简字字形转换中模糊消解的非统计方法+.docVIP

繁简字字形转换中模糊消解的非统计方法+.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
繁简字字形转换中模糊消解的非统计方法+

繁简字 字形转换中模糊消解的非统计方法+ ? 冯 霞* ? ?   摘 要:简体中文和繁体中文是现代汉语并存的两种书面形式。它们在语音、词汇、语法等方面都有明显差异,给大陆和港澳台地区的交流和沟通造成障碍。繁体中文和简体中文的最大区别在于字形,而繁简字字形转换的难点在于部分简化字与繁体字在字形的不对称对应。本文结合大规模真实语料,主要分析探讨了对繁简字字形转换过程中由于繁简字字形不一一对应造成的模糊现象进行消解的方法。   关键词:繁简转换;不对称繁简字;模糊消解 ?   现代汉语存在两种书面形式:简体中文和繁体中文。港台等地所使用的繁体中文与大陆使用的简体中文在文字、词汇以及语法等方面都呈现出比较明显的差异。繁简并存的现状在一定程度上成了大陆与港澳台地区在信息交流与沟通等方面的一个重要障碍。 ? 1. 中文繁簡转换 与 繁简字字形转换 中文繁简转换应解决的基本问题是由繁体中文与简体中文的区别决定的。繁简中文的区别主要体现在以下四个方面:   (1) 字形:繁体中文使用繁体字形,简体中文使用简化字形。   (2) 字符集:繁体中文通常使用 BIG5 编码以及台湾官方发布的 CNS14649;简体中文则通常使用国标码字符集或其扩充版本,国家标准扩展码 (GBK) 等由中国大陆政府正式颁发的字符集。   (3) 词汇:繁体中文与简体中文在词汇方面的差异主要体现于两类词语,一是繁体中文与简体中文彼此找不到合适对应关系的词语。如:“縮班”、“杀校”、“老三届”。二是非一一对应的词语,即一个繁体中文中的词语可能对应简体中文的多个意义,或者反之。如,繁体中文里的“家庭計划”对应简体中文中的“家庭的计划”和“计划生育”两个意义;简体中文中的“检讨”对应繁体中文的“检查”和“讨论”两个意义。后一个例子中的词语在理性意义和感情色彩都是不对应的。   (4) 语法:语法方面的差异可以从词法和句法两方面来看。词法区别体现在繁体词类活用较多,否定词、连词和量词与简体中文也均有所区别。句法方面繁简中文的差异则主要体现在动词部分省略,动词搭配以及有字句、比较句等方面。   中文繁简转换的基础在于繁简字字形转换[1]。这是因为字形差异是繁体中文和简体中文的最大区别。“‘简体’中文的定义决定它不能用繁体的字形书写,除非一个繁体字形不存在对应的简体形式。同样,‘繁体’中文除了某些次要的例外情况(如某些专有名词)之外必须不能以简体字形书写[2]。”就字形差异而言,费锦昌先生在其《海峡两岸现行汉字字形的比较分析》一文中对大陆的《现代汉语通用字表》内的7000个通用字和台湾地区的《常用国字标准字体表》内的4808个常用字进行了字形比较,比较的结果是,两表所收相同的字有4786个,其中字形不同的即大陆使用简化字,台湾使用繁体字的有1474个字,约占总表的31%。另外,据初步统计,在《简化字总表》第一表,不作简化偏旁用的350个简化字中,字形相差甚远、看不出关联性的字,如“出[齣]”、“丛[叢]”等有90多个,约占此表的25.7%。可见,字形差异是繁体中文用户和简体中文用户在阅读没经过繁简转换的文字内容感觉困难的根本原因。   而现有大多数繁简转换工具处理多是只做不同字符集之间的转换,也就是编码之间的互转,转换并不针对繁简中文的不同字形。若是基于收录了所有简繁体中文字符的字符集如 GBK 再利用这种方法做繁简转换是毫无意义的,遇到繁简字形对应关系存在歧义的繁简字一般也很难转换正确,例如对“老板板着脸”这样的句子就束手无策。   因此,我们认为,繁简字字形的正确转换是中文繁简转换的关键问题。 ? 2. 繁简字字形转换的多选一模糊 2.1 繁简字字形对应和不对称繁简字   繁体字与简化字在字形上的对应存在以下三种情况:   1. 繁简同形。如“一[一]”、“丁[丁]”、“少[少]”等。   2. 繁简一一对应,即一个简化字形与一个繁体字形对应。如“帮[幫]”、“宝[寶]”、“报[報]”等。   3. 繁简不一一对应。繁体字与简化字的不对称对应,不仅体现在一个简化字对应多个繁体字形,也体现在一个繁体字对应多个简化字形。如表1、表2: ? 表1.简-繁的一对多 表2.繁-简的一对多 简化字 繁体字 ? 繁体字 简化字 发 發(出發) 髮(頭髮) ? 著 着(沿着) 著(著作) 板 板(老闆) 板(木板) ? 乾 干(干燥) 乾(乾坤) 别 別(告別) 別(彆扭) ? 徵 征(长征) 徵(徵羽) ? 1、2 两种情况的繁简字字形互转问题依靠建立一对一字形映射表就可以解决,而字形不对称对应的繁体字与简化字的互转问题则复杂得多,它们会因为对称关系的非唯一性而造成转换多选一的模糊,是繁简字字形转换的难点。例如,简体字“松”,在繁体中文中对应两个繁体字形:一是“

文档评论(0)

18273502 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档