- 1、本文档共70页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文字學知識的整合及 應用平台
解決缺字的系統平台與功能簡介 文字學知識的整合及應用平台 莊德明 2010.07.20 中央研究院資訊科學研究所 計畫簡介 今日網際網路雖然蓬勃發展,但是有關漢字的資源,卻是相對地貧乏,又缺乏整合。 建立文字學知識的整合及應用平台,可逐步整合現有的漢字網站資源,同時也促進新網站的成立,以利使用者透過網際網路擷取漢字資源,並闡揚漢字文化。 先前的研究成果 中央研究院漢字部件檢字系統 漢字古今音檢索系統 中央研究院漢字部件檢字系統 中央研究院漢字部件檢字系統 研發單位:中央研究院資訊科學研究所文獻處理實驗室 研發時間:1993年迄今 系統簡介:本系統依據漢字構形原理,建立漢字構形資料庫,並制定字形表達機制及研發部件檢字技術,以解決文字學數位化的問題,尤其是缺字問題。 漢字構形資料庫 漢字構形資料庫是一個記錄漢字形體知識的資料庫,這些知識包括:字形演變、字形結構及異體字。 2010 年 5 月推出的漢字構形資料庫2.62版,收錄古今漢字140,657個;其中楷書字形86,306個,小篆及重文11,100個,金文21,413個,楚系簡帛文字19,138個,甲骨文2,700個。另收《漢語大字典》異體字表12,208組。 漢字構形資料庫的架構 漢字構形資料庫2.62版 漢字構形資料庫的四大特色 銜接古今文字以反映字形源流演變 收錄不同歷史時期的異體字表,以表達不同漢字在各個歷史層面的使用關係。 記錄不同歷史時期的漢字結構,以呈現漢字因義構形的特點。 使用構字式及風格碼來解決古今漢字的編碼問題 「員」的字形演變及解形 銜接古今文字 收錄異體字表 收錄異體字表(續) 不同歷史時期的漢字構形分析 部件檢字(楷書) 部件檢字(古漢字) 古今漢字的編碼問題 漢字構形資料庫是採用構字式及風格碼來解決古今漢字的編碼問題。 構字式適用於楷書,風格碼則適用於金文、甲骨文等古漢字。 構字式即字形結構式。一個字的字形結構式,是該字極佳的識別符號;因為字形若不一樣,則字形結構必不相同;反之,字形結構若相同,其形也必相同。 風格碼是構字式的延伸,構字式是利用字形結構來區分字形的字形碼,而風格碼則是利用出處來區分同一個字形而風格迥異的異寫字。 構字式 構字式(續) 風格碼 風格碼字例(續) 古漢字的出處 公眾授權及標準制定 中央研究院漢字部件檢字系統已於2008年以公眾授權模式提供的原始程式碼及相關資料,釋出給大眾使用。 參考構字式撰寫「中文字構形索引序列」國家標準草案,中推會已同意共同列名推動本案,目前提送標檢局審查。 漢字古今音檢索系統 漢字古今音檢索系統 研發單位:臺灣大學中國文學系 研發時間:1997年迄今 系統簡介:本系統是一個為方便檢索漢字古今音而設計的電腦資料庫,提供使用者根據字頭查詢古今字音,或依需要設計各種檢索條件做資料的閱讀和分析。 漢字古今音檢索系統(續) 「漢字古今音檢索系統」是行政院國家科學委員會「漢學研究資料庫」研發計畫下其中一個子計畫的成果,計畫主持人為臺灣大學中文系楊秀芳教授,共同主持人為中央研究院語言學研究所何大安研究員。 本計畫自1997年開始進行基本架構的設計以及語料的判讀,最後輸入電腦,成為目前這樣一個可在網路上檢索古今字音的資料庫。 漢字古今音檢索系統(續) 本系統所提供的可查詢漢字總共有兩萬多字,收字的根據主要是宋代韻書《廣韻》。 根據《廣韻》收字的原因在於它是中古時代集結古今南北語音的總匯,有注音的反切資料,頗能表現中古時代的音韻系統。 以《廣韻》為基礎,往上可以研究中古以前階段的音韻系統,往下可以研究中古以後階段的音韻系統。 漢字古今音檢索系統(續) 本系統的框架,由這兩萬多個字的中古聲韻條件所搭建而成,包括各字所屬的調類、韻目、字母、清濁、等第、開合等資料。 在這框架之下,輸入上古、中古、近代、現代四個階段的語音資料,並有日本、韓國和越南三地的域外譯音。 漢字古今音檢索系統(續) 上古音包括先秦、兩漢音系。 中古音包括魏晉、南北朝、隋唐音系。 近代音收錄元代《中原音韻》以及明代《洪武正韻》的音系。 現代音包括國語、官話、吳語、湘語、贛語、客語、粵語、閩語、晉語、徽語、平話及其他土話,目前規劃處理的方言點有390個。 域外譯音包含日本、韓國和越南音系。 系統改版及整合 2008年,漢字古今音檢索系統進行改版,以應付系統的擴充及簡化系統的維護。 2009年,詢問中研院資訊所文獻處理實驗室接手改版意願,並同意和中研院漢字部件檢字系統整合。 2010年,中研院資訊所文獻處理實驗室開始進行改版。 文字學知識的整合及應用平台 平台簡介 建立文字學知識的整合及應用平台,可逐步整合現有的漢字網站資源,同時也促進新網站的成立,以利使用者透過網際網路擷取漢字資源,並闡揚漢字文化。 文字學知識的整合及應用平台是以
文档评论(0)