謝清俊.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
謝清俊

智慧型漢字編碼 ─缺字問題的解決方案 莊德明 謝清俊 中華民國九十一年一月二十二日 大 綱 理論 ─ 謝清俊報告 缺字問題 漢字構形資料庫的構成 漢字構形系統概述 實務 ─ 莊德明報告 結語 缺字衍生的問題 大幅增加了資料登錄的工作 造字的管理不易 造字的空間不足 異體字造成文件檢索和處理上的困撓 造成資訊共享的障礙 漢字構形資料庫 漢字構形資料庫是一個表達漢字結構的制式系統(formal system, axiomatic system, 或 production system。 ) 漢字構形資料庫的構成有: 一群與字形相關的集合 一些字集 一個字根集 一個部件集 運算子(operators) 和運算規則(production rules) 一個字形結構式的集合 對應於每一個字形有一個字形結構式。 字形與構字式 目前,漢字構形資料庫中有 59,766 個楷書字形 ,乃下列字集中字形之聯集: 《中文電腦基本用字》 8,528字形 《五大字集》 13,060字形 《中文大辭典》 49,416字形 《漢語大字典》含簡化字總表 54,640字形 《中央研究院補字集》 8,028字形 字形與構字式 除 Window 可提供的字型外,本系統尚有: 漢語大字典 54,640 個仿宋字形 漢語大字典異體字12,208 組,約36,309字形 小篆: 說文540部首字形 《說文小字典》11,100個字形 金文 準初文(族徽,大篆) 697個 另有:西夏文約 6000 字,葉有道碑(行書) 196 個字,喃文 2,709字形 字的家譜與字根 構形資料庫中的 59,766 個字形,依其構形劃分為 1,324 個家族,每個家族為一樹狀結構,家族的領頭字即字根。 此1,324 個字根又分為兩組: 普及組有801 個字根,可處理57,626 個字的構形。 罕用組有523 個字根,只處理2,140 個罕用字的構形。這些罕用字都是些楷化的古字,如金文。 我們推薦流通的版本用普及組字根。 實施 三個運算子: 橫 ? 直 ? 含 ? 單運算子表達Recursive 運作 以部件構字式作為缺字之識別碼 以漢字構形資料庫管理字形知識 提供漢語大字典中五萬餘字的字形與部件構字式之對映 部件構字式、字根構字式與字根式 灕=??離 灕=??(离?隹) 灕=??((??禸)?(???)) 灕=??(((??凶)?禸)?(??(???))) 灕=??(((??(凵??))?禸)?(??(???))) 灕=???凵禸??? 單運算部件構字式之例 灕=??離 離=离?隹 璃=王?离 擒=??禽 噙=口?禽 离=??禸 禽=??离 隹=??? ?=??? ?=??凶 凶=凵?? 種字與終端字 在每一棵漢字家族樹中,有兩種字: 一種是沒有孳生能力的,稱為終端字。 終端字位於家族樹的端末結點上。 一種是有孳生能力的,稱為種字。 種字位於家族樹的非端末結點上。 種字的字形必定會出現在其他字形中, 作為其字形的一部份。 終端字則無此性質。 目前,本系統中的種字共 2600 個。 最佳化 將常用字納入 約 2800 字,佔37% 的使用率 納入常用字後的系統 約用 5200 個碼位 直接用此碼的機率大於99% . 少於1% 的機會要用部件式來表示其他的字或新字. 漢字的通用構字模式 以上漢字的構字模式是通用的,小篆、金文、甲骨文等亦可適用。 小篆已建構完成,金文在建構中。 由於古今文字均採用相同的結構模式,是故古今文字的銜接就自然、容易多了。 此模式與任何一種交換碼細系統皆相容 可應用於Unicode、JIS、 GB 、 CCCII等 此模式應可處理漢字生成後在時空上字形的變化 * 語言資源建構與標記工作營 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. Evaluation only. Created with Aspose.Slides for .NET 3

文档评论(0)

teda + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档