- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
电子古籍中的缺字问题.PDF
第 一 屆 中 國 文 字 學 會 學 術 討 論 會
天 津
電子古籍中的缺字問題
謝清俊
中央研究院 資訊科學研究所 文獻處理實驗室
1996 年 8 月 25(修正版 85.12.20)
電子古籍中的缺字問題
謝清俊 中央研究院 資訊科學研究所 研究員
摘 要
用計算機處理漢字資料時, 常有些字的字形是交換碼中沒有的, 這情形在古
籍中特別嚴重。為了要保留這些字形, 常用的方法是在使用者造字區內, 增加這個
字形, 可是這樣的做法不但要付出巨大代價, 也沒能真正解決問題。例如:為了新
造的字, 資料登錄的工作大幅增加;檢索文件時將面臨異體字檢索的難題;彼此
分享資料時則更嚴重, 可能重碼將造成資料錯誤或文件讀不出來的狀態, 以致於
根本無法共享資料。
造成這種情況的根本原因是目前計算機 中預存的字形信息太少, 如果我們能
將字形的信息表達在計算機中, 就可利用計算機來協助我們解這道難題。
本文用資料庫來表達字形的結構和該字的屬性, 在字形資料庫中, 字形是以
其部件及字根的組合方式表達。目前已將兩岸的兩套字根建構在資料庫中, 可相
互為用。
如果遇到計算機中沒有的字, 此時該字的輸入碼、交換碼、字形等都沒有, 通
常計算機是無法處理, 然而字形資料庫卻可提供以字根的方式來查詢。
為了徹底解決字形的問題, 我們建議將交換碼分為三個層次, 即字碼、字形碼
及字體碼。字碼依字的語意分別字, 字形碼依字的結構來分別字形, 字體碼則選擇
該字的字體型式。這樣的設計可依應用的性質提供適當的電子環境。
目前, 此資料庫共收錄有約九千個字, 以及這些字的部份異體字。我們也正嘗
試利用此字形資料庫來解決電子佛典中的缺字問題, 這些例子都將在本文中報
導。
未來的主要工作是將字形資料庫中字根的結構再分解為筆劃的結構。如果完
成了, 那麼在筆劃上構成的細微變化差異, 也可以用制式的方式表達出來, 電腦
亦因之可以對這些變化加以區分並加利用。本文亦將報導這個制式表達的方法。
這個字形資料庫的系統是將放在電腦網路上的, 所以凡可接到網路上的使用
者, 都可以共享它所提供的服務。此外, 字形資料庫以後還可擴充到包涵字音和字
義的部份。一個做法是和一部電子字典互相鉤連, 並把文字學的資料一齊建立。
如此, 則可能發展成為文字學資料庫, 成為漢學研究和學習的有力工具。
第一屆中國文字學會學術討論會, 天津 1996 年 8 月 25-30 日
電子古籍中的缺字問題
壹、前言
漢字歷史淵遠流長, 自隸書以後就有二千三百餘年, 誠如北魏江式云:『世易風移文字改變 』
在所難免。《顏氐家訓.雜藝》云:『晉宋以來……不無俗字, 非為大損。…… 大同之未, 訛
替滋生。蕭子雲改易字體, 邵陵王 頗行偽字……朝野翕然, 以為楷式。畫虎不成, 多所傷敗。……
爾後墳籍, 略不可看。北朝喪亂之際, 書蹟鄙陋, 加以專輒造字, 猥拙甚於江南。乃以百念為
憂, 言反為變, 不用為罷, 追來為歸, 更生為蘇, 先人為老:如此非一遍滿經傳……』。可見
自古以來漢字的「形」並未能定於一。雖經唐以後, 官方刻石整頓約以範式, 然而天下碌碌多士
實難以盡入繩矩。是故爾後字書依然收錄各體字形, 如《干祿字書》將字形分為通、俗、正三
體。亦有收錄異體字為主者, 如《龍龕手鑑》。雖然古籍的字形多變化,帶來許多麻煩, 但也非
全無好處, 特殊字形能提供版本、校勘方面有用的信息。所以, 對治古籍不能不妥善處理字形問
題, 即使用電腦也如此。
一
文档评论(0)