可携式字集资源-用以解决缺字问题.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
可攜式字集資源-用以解決缺字問題 * * 謝育平 吳政泓 項 潔 台灣大學資訊工程研究所 台灣大學資訊工程研究所 台灣大學資訊工程研究所 arping@.tw white@.tw hsiang@.tw * 摘要 編碼法,而各個編碼法內所含文字也各有差 缺字問題是指電腦內碼對應文字的不完備造成 異,所以造成編碼系統的不協調。例如:“發” 無法順利瀏覽及輸入未收錄的文字,無法順 的編碼是 BIG5:B56F 和 Unicode:767C,而 利傳播及查詢內含該文字的文件,難以在典 “ 堃”的編碼是 Unicode:5803 但在 BIG5 中則 藏過程是描述新遇到的缺字及完整統一造字 沒收錄。所以在現行內碼系統不協調的情況 的問題。缺字問題對於報業、圖書館或典藏機 下,交換碼應運而生。交換碼主要是用來處理 構來說,是一個重要的問題。本文提出可攜式 某領域下的內碼不協調問題。主要是將各內碼 字集資源架構用以自動解決瀏覽、輸入、傳播 中的文字對應到交換碼中,然後再進行內碼系 及查詢等問題,並結合部件組字法及統一造字 統的轉換。CNS11643[1]就是一個漢字領域的 法提出一個可行的缺字處理流程。 交換碼。例如我們要將某份含“發”的文件從 BIG5 編碼轉成 Unicode 編碼,我們就可以先 可攜式字集資源(Portable Word-Set Resource) 查到 BIG5:B56F 在 CNS11643 中的編碼 1- 是一種可攜式文字資源,其定義文字識別碼的 6075,然後再轉成 Unicode:767C。不管是內 方式是以“字集名稱+內碼擴充碼”,而在字集 碼或是交換碼,都有找不到文字(未收編)的時 名稱中則暗示該字集資源在網路上的位址。可 候,所以在內碼設計時皆會提供幾塊區域作為 攜式字集資源架構處理缺字問題除了典藏造字 動態指定未收編字碼的區段。例如 BIG5 提供 者外,瀏覽者、寫作者、查詢者、傳播者對缺 FA40 - FEFE、8E40 - A0FE、8140 - 8DFE、 字幾乎都是不知不覺,其具有“只要瀏覽過的 C6A1 - C8FE 等區段,Unicode 提供 E000- 就可以使用輸入法輸入,只要寫完文件就可以 F8FF 區段。對於某個內碼系統來說,我們稱 傳播,只要傳播就可以瀏覽”的特性且支援各 那些未收編的文字為缺字,或詳述之為某內碼 式支援字型的應用程式。 系統的缺字。而我們稱這些提供缺字使用的區 段為擴充字區或擴充區

文档评论(0)

150****0990 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档