- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
国家图书馆字码运作之回顾与展望
PAGE
PAGE 6
國家圖書館字碼運作之回顧和展望
宋 玉
前言
國家圖書館在 1982年購置王安 VS100型電腦並開發軟體,開始其圖書館業務的自動化運作。歷經開發系統和作業制度、建立書目檔和其他有關資料、擴充和改進功能、當系統不能滿足需求時還須要研究更換新的系統,一個個階段,前後已經有二十年之歷史。在國內,用電腦處理文字比國外還有多一層的考慮,就是中文字碼問題,因為中文字數龐大,字形有變化又不統一,同義字又很混亂、圖書館書目所處理的字範圍又廣,中文文字處理一直是一個複雜困難的課題。本文回顧國圖(前中央圖書館)這些年來在這方面的進展和所遭遇到的問題,以及所作的努力,並撿討展望將來。
字碼最大的要求是它的字集能滿足使用者的需要,中文字集本是個開放集,姓名地名常常會有奇怪的字出現,更勿論學術領域中的特殊字,所以中文碼字集必須能包括使用者需要的字。字碼字集在世界上的另一個趨勢是多國語文化,因為現代國際交流越來越頻繁,電腦文字處理能夠跨語文運作最好。這兩點對圖書館都是非常重要的。另外的要求包括廠商支援雄厚、價位合理、特殊的技術賣點等等。
中文資訊交換碼(CCCII)
(1)緣起
中文訊交換碼的英文名是Chinese Character Code for Information Interchange,簡稱CCCII,現多用它的簡名。它是產生於1979年前後,美國學界和圖書館界的需要和當時國際上的環境。那時美國亟需處理東亞語文的電腦系統,所以那一年在加州史坦佛大學召開了一個籌劃東亞圖書館自動化的會議,希望訂定中文交換碼標準作為自動化之根據。日本代表提出擴充他們的國家標準JIS作為標準。我國那時沒有合適可用的碼。美方在沒有其他標準存在的情況下,就有採用日本標準的想法。由於日本漢字的數目和字形和中文的相差甚多,實在不足以代表中國文字,並且此舉也深遠影響到我中華文化在電腦時代的生存問題,所以我國代表和華裔美國東亞圖書館代表都強力反對。經激烈辯論後,暫時擱置了日本與美方之提案,同時我方代表亦承諾次年3月亞洲研究學會年會中,提出我們編訂的中文資訊交換碼,俾與日本字碼作一比較。
我方代表返國後,立即獲得上級的支持,組成「國字小組」,立即開始整理我國文字,編訂中文資訊交換碼,並解決電腦處理中文資訊遇到的技術問題。小組期能在1980年3月前完成一中文自動化系統雛型,以得到國際上之認同。主其事者為謝清俊教授,由張仲陶教授襄輔這項工作。另外參與者有王振鵠、張鼎鍾、周駿富、潘重規、周何、莊芳榮、楊建樵、黃克東等教授。這次為了維護中華文化,號召了文字學、圖書館學教授和電腦學者一起趕工編製一套新的中文碼,這的確是史無前例的盛事。經過大家的努力,下屆亞洲學會年會時我方拿出這套定名為「中文訊交換碼」(CCCII),共4,808字。
美方很快就接受CCCII的架構,但要求「國字小組」擴大字集編碼。這項工作一直延續了很多年。1981年做出第二批17,032正體字,11,517異體字。後續的修訂工作(1982年第二冊二版,1985年第二冊三版)也花了不少工夫。1987年發表第三批,包括20,583正體字。所以一起發表了53,940個字。不僅是字碼的編訂,並且也包括64×64,32×32機讀字形。此外,為了方便電腦上的文字處理,又編製了「中國文字資料庫」(Chinese Character Database,簡稱CCDB),其中列出每個字屬性如部首、筆劃、讀音以及各種對應和輸入碼。
CCCII是一個比較特殊的中文碼。它用三個位元組表達一個中文字,每個位元組只用94個碼位 (從0X21到7E),因此它有830,534個編碼空間,足夠容納所有中文字。它所收容的字都是經過文字學者認定,所以字形是比較靠得住的。它的架構的特點是將中文的正異體字關係用碼的位置表示出來。譬如大陸用的簡體字,CCCII認為是一種異體字,簡體字的字碼比正體字字碼在第一位元組碼值多6,而其餘第二、三位元組的碼值完全相同。其他的異體字也和正體字有位置關係,即異體字第一位元組碼值比正體字的第一位元組碼值多6的倍數。這是因為正體字佔6字面 (一字面有94×94 碼
CCCII有許多優點,美國圖書館界立刻就採用了它的架構,並且另加入了日文、韓文。但是在國內,儘管那時還沒有適合電腦用的中文碼,它卻遭遇到強大的阻力。主管全國電腦的單位反對它,另編二位元組的碼,主計處所編CNS11643 即是這種想法的產品。我國圖書館界,特別是中央圖書館(現國圖)經慎重考慮決定採用「中文資訊交換碼」。原因有下列的幾點:
編碼空間大,蒐羅中文字最多。收列字的範圍適合圖書館書目用。
收列的字經過文字學家核驗,都是有根據的字。
將正體字及異體字之關係藉碼址表示出,方便異體字之檢索。
編碼空間大,將來加字容易。
後來十幾年中,中央圖書
您可能关注的文档
最近下载
- 中小学生心理健康诊断测验MHT(附测试量表及评分细则).docx VIP
- HG-T 3866-2008 硫化橡胶 压缩耐寒系数的测定.pdf VIP
- 2025年内蒙古公务员考试《申论》真题及答案 .pdf VIP
- 第12课 汉武帝巩固大一统王朝 课件(共25张PPT)(含音频+视频).pptx VIP
- 中电联定额〔2015〕162号对于前期工作费等费用标准的的通知.docx
- 履带吊租赁合同.pdf VIP
- 《中国饮食文化》教学课件—06中国馔肴文化与特色筵宴设计.pptx VIP
- 呼吸内科病案分析.ppt VIP
- 肌骨康复:腰痛康复PPT课件.pptx
- 2023-2024学年河南省南阳市卧龙区九年级(上)期中数学试题(含解析).doc VIP
原创力文档


文档评论(0)