如何建立汉字知识库.doc

下载文档 降价啦

5
0
约2.07万字
约 26页
2018-04-29 发布于天津
举报
版权申诉
保障服务

如何建立汉字知识库.doc

1、本文档共26页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

如何建立汉字知识库

漢字資訊化的困境及因應：談如何建立漢字知識庫莊德明中央研究院資訊科學研究所研究助技師壹、漢字的形體及字數這些年來電腦科技蓬勃發展，數位化的呼聲不絕於耳，很少有一門學科能置身事外而不受影響。然而各門學科數位化的進展快慢不同，漢學在這方面是比較落後的，尤其是文字學。從殷商的甲骨文算起，漢字的使用已達三千四百年之久。漢字從歷史演變出發，可以分成兩大階段。這兩個階段以秦代的小篆作為分界：自甲骨文到秦代的小篆，通稱古漢字；自秦漢隸書以後，通稱今漢字。當代正在使用的漢字，稱作現代漢字，在形制上也屬於今漢字。古漢字包括甲骨文、金文、戰國文字和小篆，今漢字包括隸書、草書、行書和楷書。今漢字與古漢字相比，由於形體變化太大，漢字的形義關係已很不明顯，甚至被完全隱沒。所以要想瞭解某個字的構形寓義，必須找到它的古文字形體。例如「員」字本為方圓的「圓」的本字。表一列出「員」的古文字形體，其中1為甲骨文，2-3為金文，4為說文籀文，5為說文小篆，6為楚系簡帛文字。「員」的甲骨文和金文都鼎、○，○亦聲。林義光《文源》：「○，鼎口也，鼎口，圓象。」《說文》：「員，物數也。貝，囗聲。，籀文鼎。」說文籀文仍然保留鼎、○的寫法，小篆「鼎」已訛為「貝」，字義也由「圓」而借用為「物的數量」，於是後人又於「員」外加「囗」作「圓」以還其原。表一、「員」的古文字形體 1.合集10978 2.員父尊 3.方鼎 4.說文籀文 5.說文 6. 秦1.2 現代漢字的字數已很難統計，而出現在各種典籍裡的，以及出現在甲骨、鐘鼎、簡帛、玉石等材料上面的古漢字個數就更加難以統計了。表二從歷代一些具影響的字書中列出一個大略的估計。從表二也可看出，古漢字最大的特點是異體字（重文）多，例如《金文編》收錄的「尊」字有252個形體，而「寶」字則有273個形體。表二、古漢字個數的大略估計書名成書時間(西元) 作者字數備註《說文解字》 100 許慎 10516 小篆字9353個，重文1163個。《甲骨文編》 1965 中國科學院考古研究所 4672 正編收單字1723個，附錄收單字2949個。《金文編》 1985 容庚 24261 金文字頭2420個，重文19357個；附錄收字1352個，重文1132個。《先秦貨幣文編》 1983 商承祚等 8215 正編收錄313個字，同文異體字5726個；合文63個，同文異體字232個；附錄534個，同文異體字1347個。《漢印文字徵》 1978 羅福頤 10239 收錄漢魏官、私印文字2646個，重文7432個；附錄收字143個，重文18個。《楚系簡帛文字編》 1995 滕壬生 19250 表三、歷代部分字書收字情況書名成書時間(年代) 作者收字頭數備註《說文解字》西元100年(東漢) 許慎 9353 加上重文1163字，共計收字頭10516。《玉編》西元543年(南朝梁) 顧野王 22726 《廣韻》西元1011年(宋) 陳彭年等 26194 《集韻》西元1067年(宋) 丁度等 53525 《字彙》西元1615年(明) 梅膺祚等 33179 《康熙字典》西元1716年(清) 張玉書等 47035 加上古文字字頭共49030，其中重收字頭81個。《漢語大字典》西元1986年－1990年徐中舒等 54678 現行漢字是由各個歷史時期的漢字發展積澱而成。它的總體數量、單字筆畫、結構、讀音以及體勢都在不斷變化。從現存的主要字書來看，漢字的總數在不斷地增多。表三列出歷代部分字書收字情況。這些新增字有相當數量是異體字，它們是由兩個原因造成的：一是共時的個人書寫漢字因隨意性而產生的變異；二是前代不同形制的漢字積澱到後代而產生的差異。例如《漢語大字典》收錄了3個「員」的異體字：「」、「」、「」，其中「」為說文籀文「」的楷化，「」出自袁博殘碑，「」為簡化字。貳、漢字資訊化的困境 1942年，第一部電子計算機誕生後不久，拉丁文字的計算機處理便開始起步，並獲得迅速發展。1960、1970年代，西方實現文字初級自動化處理的時候，漢字承受著機械化與自動化的雙重重壓。直至1981年，IBM推出第一部個人電腦後的十來年間，電腦的漢字處理技術才實現了全面突破。然而今天漢字與電腦的適應，應該說只是基本的，或是初步的，它還不完全，不完善，不完美。許壽椿認為突出的問題和難題至少有： 1.缺字困擾普遍存在。現今任何一個系統都不能表達全部漢字，都有缺字問題。 2.排序混亂。現有的各漢字編碼方案均沒有認真處理好排序問題。 3.多種中文字碼並存，造成傳輸、交流的障礙。 4.輸入法的規範、優選仍無成效。高效率、易學用、與漢字基礎教育相協調的輸入法久喚不出。 5.字量龐大使字庫的設