中文电脑缺字解决方案 - UC Berkeley Linguistics.PDF

中文电脑缺字解决方案 - UC Berkeley Linguistics.PDF

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文电脑缺字解决方案 - UC Berkeley Linguistics

中文電腦缺字解決方案 莊德明 中央研究院資訊科學研究所 derming@gate.sinica.edu.tw 摘 要 使用電腦來處理漢字資料時,常會遇到一些電腦沒有的字形,以致無法輸入, 這便是缺字問題。面對缺字問題,雖然擴大電腦字集是該努力的工作,但是並不 能徹底解決問題。我們認為,要解決缺字問題,還是應該在電腦中建構一個處理 字形的機制。 本所自 1993 年起,即研擬漢字在計算機中的制式表達,稱為構字式,以登錄 漢字的字形結構,並建置漢字構形資料庫。構字式係將漢字視為一個二度空間圖 案,再由部件以橫連、直連、包含三個法則拼湊而成。構字式可用來表達缺字, 同時也可以當作漢字的交換碼。 由於近年來網際網路蓬勃發展,資訊共享的需求日益殷切,本所也和「教育 部圖書館自動化及網路化策略推動委員會」合作,推動以漢字構形資料庫來解決 中文電腦的缺字問題,第一期期畫於 2000 年底結束,並且推出可在 Microsoft Windows 95 或 98 中文繁體版上使用的光碟。這片光碟已收錄《漢語大字典》的 54,678 個字形及 12,208 組異體字。光碟安裝後,使用者可以利用部件迅速檢字, 並在 Microsoft Word 97 或 2000 中文繁體版上使用這些字形。 漢字構形資料庫的建置仍在進行中,第二期計畫從 2001 年 8 月到 2002 年 6 月,預計增收《說文解字》的 9353 個小篆字頭及 1163 個重文,以銜接古今文字。 小篆字形的登錄,必須依據《說文解字》的釋形,以建立文字學資料庫。至於小 篆和楷體間的對映,可以參考《漢語大字典》及《說文解字詁林》。部份小篆字可 能對映好幾個楷體字,這部分可參考《漢語大字典》的異體字表。 小篆以外的古文字,如甲骨文、金文、楚簡等,本所也和院內的歷史語言研 究所合作,目前以金文的進展最快,可望和小篆同時收錄在第二期的光碟中。 壹、前言 使用電腦來處理漢字資料時,常會遇到一些電腦沒有的字形,以致無法輸入, 這便是缺字問題。尤其是在處理古代文獻時,缺字的情況特別嚴重。 為了應付缺字問題,一般的治標方法是在電腦字集的外字區中找一個碼位, 造上所缺的字形,這種作法雖然可以在該電腦中顯示缺字,但也面臨了資訊共享 的障礙及造字空間不足的問題。另外,擴大電腦字集也曾經是大家的努力方向, 但是經過多年的驗證,仍然發現字形無法收齊,改寫應用程式的成本過高。我們 認為要徹底解決缺字問題,在電腦中不能僅靠一個碼位來代表漢字,而應該在電 腦中建構一套處理字形的機制。 本所自 1993 年起,即研擬漢字在計算機中的制式表達,以登錄漢字的字形結 構,並建置漢字構形資料庫。近年來由於網際網路蓬勃發展,資訊共享的需求日 益殷切,本所也和「教育部圖書館自動化及網路化策略推動委員會」合作,推動 以漢字構形資料庫來解決中文電腦的缺字問題。第一期期畫於 2000 年底結束,並 且推出可在 Microsoft Windows 95 或 98 中文繁體版上使用的光碟。這片光碟的主 要內容如下: 1. 涵蓋《漢語大字典》[1]的 54,678 個字形及繁體中文 Big5 的 13,053 個字 形,合計 54,711 個字形。 2. 收錄《漢語大字典》的異體字表,共 12,208 組,包含 36,309 個字形。 3. 提供 4,766 個部件以檢索字形,其中包含 1,324 個字根。1,324 個字根, 可再分成常用字根 657 個,間用及罕用字根667 個;常用字根可涵蓋 52773 個字形,間用及罕用的字根涵蓋 1938 個字形。 4. 擴充 Microsoft Word 97 及 2000 繁體中文版的功能,可在 Word 下使用 54,711 個漢字。 5. 開發漢字構形資料庫使用界面 ,讓使用者可以快速的檢索缺字及異體字。 6. 提供線上說明及使用手冊。 漢字構形資料庫的建置仍在進行中,第二期計畫從 200 1 年 8 月到 2002 年 6 月,工作重點如下: 1.

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档