汉字的知识结构及应用――由汉字智慧编码.PDF

汉字的知识结构及应用――由汉字智慧编码.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉字的知识结构及应用――由汉字智慧编码

漢字的知識結構及應用―― 由漢字智慧編碼,到漢字編碼中隱涵的知識架構 莊德明中央研究院資訊所 derming@gate.sinica.edu.tw 現在電腦處理漢字的種種缺失 ,例 如排序 、輸入 、缺 字 、異體字 檢索等 ,最主要的原因是電腦中的漢字信息不足所致 。中 央研究院資 訊所文獻處理實驗室有鑑於此,自 1993 年起即先由字形著手,在電 腦中登錄漢字的字形結構,並建置成漢字構形資料庫。 漢字構形資料庫早期收錄的字形是以楷書的現代印刷字體為 主 ,字集包含 《中文電腦基本用字》 字 、五大碼 , (8,532 ) (Big5 13,053 字 、《中文大辭典》 字 、《漢語大字典》 字 。字形結 ) (49,905 ) (54,640 ) 構的登錄 ,是參考 《康熙字典》的部首 ,依據橫連 、直連 、包含三 個 法則 ,將字形拆分成部件 ,再 將部件拆分成字根 。例如字形 「鋸」金 ( 部 可拆分成部件 「金」橫連 「居」,「居」尸部 拆分成 「尸」包含 「古」, ) ( ) 「古」口部 拆分成「十」直連「口」,而部首「金」、「尸」、「十」、 ( ) 「口」則 視為字根 ,不再拆分 。為了表達上的方便 ,我們分別以構字 符號 、 、 表示橫連 、直連及包含 ,「鋸」、「居」、「古」的 字形結 構可記為『金 居』 、『尸古』 、『十口』 ,稱作構字式。 構字式是字形極佳的識別符號 因為字: 形若不一樣 ,構字式必不 相同;反之,構字式若相同, 字形也必相同。因此,自 1996 年起, 我們即提出構字式也可當作電腦處理漢字時的交換碼 ,用 來解決缺字 問題 。缺 字問題的產生是由於漢字交換碼中的字形不足所引起的 。漢 字是一個開放性質的字集 ,就 字數而言 即已不適合作固定數量的, 限 定;這與數量已定的西方語言的『字母集』,是不可以一概而論的。 然而,現行漢字交換碼的結構,如 、 ,卻仿照西方語言 Big5 Unicode 的字母集的結構來設計,這不能不說是『削足適履』 。解決缺字問題 的根本 ,在於解決現行漢字交換碼的根本缺失 ,而構字式應是個更稱 職的交換碼 。在應用上 ,構 字式可單獨運 作 ,也可在現有的交換碼 基 礎 上用來表達缺字。例如 的缺字「 」可記為『石 出』,其中 Big5 「石 」和 「出」都 是 已定 義的字。

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档