- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
                        查看更多
                        
                    
                管子旧版造字转码说明-文献处理试验室
                    
                      《管子》舊版造字轉碼說明 
                                                中研院資訊所文獻處理實驗室  
                                         中研院史語所漢籍電子文獻工作小組   
                                                        2008/1/2 陳建安 製作   
一、      《管子》一書管子                使用舊版造字             個,字頻            次,詳如 
                      (     .xml)               89            284 
     附件一。這            個造字中,          個可轉成                    能顯示的字, 
                   89             67            Windows XP 
       字頻225 次;另外 22個字必須轉成構字式,字頻 59 次。 
二、 附件一的造字分析表說明如下:  
     甲、  編號:Big5 造字空間為 6217 個,編號由 1 到6217。  
       乙、 造字:舊版造字  
       丙、  字頻(txt):造字在「.txt」文件的出現次數  
      丁、  字頻(xml):造字在「.xml」文件的出現次數  
      戊、 Big5:造字的 Big5 碼  
     己、  Unicode:造字所對應的 Unicode碼  
      庚、 WinXP:造字在 Windows XP的對應字形  
      辛、備註凡例:   
             1、校對問題,舊版漢籍錯字,可用程式全部取代:在舊版 
                漢籍電子文獻中即存在的錯字,因校對時的疏漏而未更 
                 正,持續留存在新版漢籍電子文獻中;若該造字的所有 
                頻次,皆屬於錯誤使用的錯字情形,可以用程式全部取 
                代為正確字形。如編號 5308 的「棹 戈」字,原字為 
                  「檝」。  
             2、異體字問題:新版漢籍考量到使用者檢索及使用時的便 
                利性,將用字原則改為除專詞等特殊情形之外,一律改 
                用標準字呈現。如編號 1559 的「 旡」係「廄」 
                 字之異體,故以「廄」字取代。  
             3、待造字:Unicode 及漢字構形資料庫皆未收錄的舊漢籍 
                造字,正在等待補造字中,所以「造字」欄空白無法看 
                 到字形。如編號 5248 的「間」 。  
三、             目前收錄的漢字總數為                       ,分屬於三個不同區段,詳 
       Unicode                           70194 
      如表一。目前                       只支援          認同表意文字區的 
                      Windows XP             CJK                      20902 
      個字,內碼為                     。所以造字編號              的「 」字, 
                     4E00-9FFF                    2334              Unicode 
                                                                           
      編碼為 25FED ,由於Windows XP 並不支援,仍須使用構字式「 
       」。 
                                       1 
                       表一、            的字數及編碼區段 
                              Unicode
                 原创力文档
原创力文档 
                        

文档评论(0)