数位典藏中文缺字显示系统分析和建议报告.docVIP

下载本文档

3
0
约4.46千字
约 10页
2017-08-22 发布于安徽
举报
版权申诉

数位典藏中文缺字显示系统分析和建议报告.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

數位典藏中文缺字顯示系統分析與建議報告摘要前言自執行『數位典藏國家型科技計畫』以來，已完成了許多典藏品數位化的工作。而在漢字數位化的過程中，常會遇到系統字元編碼中沒有辦法表達中文的罕用字與古字，而造成這些字無法被著錄於典藏系統中，就形成了「缺字問題」。缺字的問題由中央研究院資訊科學研究所文獻處理實驗室發展的漢字構形資料庫來解決；在資料庫中字形是利用部件及字根的組合方式來表達，透過有限的部件及構字符號可組出無限的字形，因此得以解決缺字的問題。而由部件與構字符號所組成的字形在此稱為構字式。數位典藏系統的操作流程是典藏單位將其相關的研究資料著錄到典藏系統中，之後使用者可經由瀏覽器閱覽這些資料。在流程中輸入資料至系統及瀏覽器閱覽資料時都需要針對缺字進行處理，使缺字能被儲存至資料庫中，並且正確的顯示在使用者端。而缺字如何可以存入資料庫中及如何顯示在使用者端即需透過本系統的協助才能完成。本報告以中央研究院數位典藏技術發展組中文缺字顯示的元件說明與程式碼作為分析的依據，使用UML圖形表示法來表示本系統之功能、架構、與運作流程。目的是提供系統分析人員、程式設計人員、後續研發與應用的人員瞭解此系統，並希望藉這份分析報告讓數位典藏系統的修改或新系統的建立更容易。功能介紹本系統的功能有漢字編碼解譯功能、取得構字式圖形功能、與網頁缺字顯示功能。當使用者要輸入數位典藏系統使用的字是現行漢字交換碼所無法表示的缺字時，必須輸入對應此缺字的構字式。如何輸入的部分不在本系統範圍內，在此不詳述。輸入之後的構字式資料要儲存時，需要將構字式的資料進行編碼轉換；此時即呼叫本系統的漢字編碼解譯功能。當要顯示構字式資料時有兩種方式可以使用，一種是將構字式資料傳入並呼叫本系統的取得構字圖形之功能進行轉換取得其缺字之字形來顯示；另一種方式是直接由網頁呼叫本系統的網頁缺字顯示功能，此功能會將網頁中的資料讀入，並將資料中判斷為構字式的字轉換成會連結到字形解譯引擎的HTML圖片標籤，如此使用者端的網頁會直接以圖片顯示出該缺字資料。由於漢字編碼解譯功能與取得構字式圖形功能是典藏系統內部呼叫的功能，所以將此二者歸類為server端；而網頁缺字顯示功能是由使用者端的網頁直接呼叫，因此將其歸類為client端。此三功能也可以UnifiedModeling Language的使用案例圖來說明。為避免重複，我們將此部分留待分析過程與結果處再一併做說明，在此不詳述。系統架構我們依照使用的情況，將中文缺字系統的架構分為server端與client端。 Server端負責供數位典藏系統叫用，可分漢字編碼解譯與取得構字式圖形兩部分；Client端負責供一般使用者從網頁瀏覽資料時叫用，主要是網頁缺字顯示的部分。分別說明如下： server端：漢字編碼解譯：當含有構字式的資料被著錄時，典藏系統中需要一個轉碼機制將構字式的資料進行轉碼轉換，才得以儲存在資料庫中；因為構字式中的構字符號無法對應至Big5，因此需要將構字式中的構字符號轉換為跳脫格式的表示法再存入資料庫中。漢字編碼解譯即是此轉換機制；此功能會將輸入的資料逐一字元讀取，並將需要轉換的部分進行轉換，最後傳回轉換後的編碼結果。取得構字式圖形：當要顯示著錄的資料時，若資料中含有跳脫字元代表含有構字式資料，就需要對這些資料進行解讀，將其中的構字式轉成對應的構字圖形。此功能即是解讀輸入的資料，並將其中的構字式資料轉換成構字式圖形，最後傳回可以顯示的文字及圖形結果。 client端：網頁缺字顯示：顯示資料的另一種作法是讓使用者端的網頁包含一個元件(LiveConverter)，此元件會對網頁資料內容進行判讀，將資料中的構字式轉換成會連結到字形解譯引擎的HTML圖片標籤，如此使用者端的網頁中的構字式資料會直接以圖片顯示。此功能的作用與前述的server端之取得構字圖形功能是相同的。不同的是本功能的作法是在使用者端的網頁自己啟動一個可以處理解讀的元件，而不是由數位典藏系統直接傳給使用者可顯示的網頁內容。分析過程與結果本報告依據中央研究院數位典藏技術發展組所提供的程式碼及「數位典藏系統元件及模組」說明網頁「」來進行分析，並以物件導向發展過程中所使用的分析工具Unified Modeling Language(UML)來表現此系統的功能、架構、及運作流程。所使用的UML表示圖包括案例圖、類別圖、與循序圖。使用案例圖(use case diagram) 在本報告中透過使用案例圖描述本系統的功能和所參與的使用者，及使用的時機。根據數位典藏系統中本系統被使用的方式，可分為三個使用案例：漢字編碼解譯、取得構字式圖形、與網頁缺字顯示。此三部分的功能各自為獨立功能。會使用到這些功能的行為者可為數位典藏系統或一般網頁瀏覽者；數位典藏系統指數位典藏系