谈简繁转换几个关键问题.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
th 談簡繁轉換的幾個關鍵問題 (5 CDF) 談簡繁轉換的幾個關鍵問題 教育部語言文字應用研究所 王曉明(大陸) 財團法人中文數位化技術推廣基金會 魏林梅(臺灣) 一、引言 信息技術的迅猛發展,為信息交換構築了良好的平臺,網絡技術 的發展,徹底改變了以往的時間、空間概念,使得信息交換日漸便捷 與高效,因此備受人們的親賴。然而,中文的信息交換在此卻遇到了 障礙,長期以來,由于大陸普遍使用簡體中文(GB 碼)而港、澳、臺 使用的是繁體中文(BIG5 碼),用戶平臺也分別使用不同的中文系統, 兩岸四地中文信息不能直接互換,面臨著中文平臺和簡繁轉換兩大問 題。隨著國際標準 ISO/IEC 10646 在信息技術領域裏的廣泛應用,中 文平臺問題隨之而解,简繁漢字分離的狀况宣告結束。但這只解决了 信息交換問題,信息交流問題還是沒有得到解决。本文將在國際標準 ISO/IEC 10646 框架内,談一談簡繁轉換涉及的幾個關鍵問題。 二、簡繁轉換的現狀 從上世紀九十年代中起,隨著國際標準 ISO/IEC 10646-1:1993 的發布以及兩岸四地交往的日益頻繁,大陸、臺灣和海外的一些研究 機構開始研發簡繁漢字轉換工具。比如:大陸的中科院軟件所、四通 利方公司、新天地公司;IBM(臺灣)公司、臺灣的倚天公司等。但是, 由于缺乏文字學研究的支持,其中的某些系統尚達不到實用化的程 2008 年 10 月 22-24 日 1 of 8 安徽合肥 th 談簡繁轉換的幾個關鍵問題 (5 CDF) 度;另外那些付諸應用的系統,雖然都能够實現一對一簡繁漢字的轉 換功能,但是仍然解决不了一對多的轉換瓶頸問題。 網上泛濫的在綫簡繁轉換系統以及隨處可以下載的簡繁轉換軟 件只能完成漢字一對一的轉換功能,一對多的簡體字被固定地轉換為 同一個繁體字,而且這些系統中所用的簡繁漢字對照表也不全,大多 數隻包含一千多個簡體字和繁體字的對照關係,而《簡化字總表》中 所列簡體字一共有 2235 個,因此在轉換的過程中,很多漢字都沒有 做轉換,轉換效果極差。 目前,比較通用的辦公套件,如:微軟 Office、Sun 的 OpenOffice、永中 Office、金山 WPS 等,基本上都提供了簡繁轉換 功能,但是水平參差不齊。這些辦公套件的簡繁轉換功能仍然未實現 對CJK 20902 中所有簡繁漢字的轉換支持,對于一對多的漢字也經常 轉換錯誤。 雖然過去的十餘年裏,很多研發機構和公司都努力研發實用化的 簡繁轉換工具,但是目前還沒有一個真正的精密轉換系統被研發出 來,同樣的內容,不同的工具轉出不同的結果來,導致結果的不可信, 經常是計算機轉一遍,還得人工校一遍;而且在方便用戶使用上還存 在諸多問題。究其原因,解决問題的辦法沒有找准,長期以來,都企 圖依靠技術解决問題,結果事倍功半,解决了這個問題,又引起了新 的問題。由于主攻方向性的錯誤,導致核心問題遲遲得不到很好地解 决。仔細研究就會發現,除了文字本身的問題,更主要的是對簡繁轉 換的認識問題。 2008 年 10 月 22-24 日 2 of 8 安徽合肥 th 談簡繁轉換的幾個關鍵問題 (5 CDF) 三、簡繁轉換的幾個關鍵問題

文档评论(0)

xina171127 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档