网站大量收购独家精品文档,联系QQ:2885784924

语言典藏-网路展书读.ppt

  1. 1、本文档共132页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语言典藏-网路展书读.ppt

語言典藏 張如瑩 中央研究院語言所籌備處 ruyng@.tw 大綱 背景 語言典藏各子計畫 語言、文字相關技術和工具 語言典藏後設資料標準OLAC 目標 人文與本土的關懷 弱勢語言的典藏傳承是其文化在資訊時代薪火相傳的前提。 國際化與國際競爭力 跨語言的典藏解讀與知識處理能力是知識經濟時代國際競爭力的前提。 科技與人文的契合 語言文字所蘊含的知識架構是人文素養與數位化數據間唯一隨時暢通的陽關大道。 背景 語言典藏 http://LanguageA.tw 「語言典藏」與「語言座標--語料建置部份」關係圖 多語與多文化交流 多媒體與流行語言文化(1.4) 當代通用語言文化(1.3) 閩客語言文化(1.5) 原住民語言文化(2) 中華傳統語言文化(1.1) (1.2) 人文關懷與多元文化之傳承 背景 語言典藏各子計畫 語言典藏各子計畫 漢語典藏與典藏架構 1.1近代漢語詞彙庫 1.2先秦金文簡牘詞彙資料庫 1.3二十世紀漢語語料庫與句法結構資料庫 1.4新世紀語料庫--多媒體的語言呈現與典藏 1.5閩南語典藏--歷史語言與分布變遷資料庫 台灣南島語典藏:台灣南島語語料庫、詞彙庫、與語法 A. 語言座標 B. 技術支援 C. OLAC、ISLE、ISO等國際標準 近代漢語詞彙庫 近代漢語(約為自唐以至清代)的語言與現代漢語最為接近,其語料在漢語的歷史語言中是屬於比較容易閱讀與理解的,且在敘事上鋪陳豐富 作為建構漢語歷代詞彙庫的第一個目標 歷史語言研究工具,古代語言的認識更完整更系統,也可作其他人文社會科學的研究資源 近代漢語標記語料庫 #1 .tw/Early_Mandarin/ 近代漢語詞彙庫 近代漢語標記語料庫 #2 近代漢語詞彙庫 近代漢語標記語料庫 #3 近代漢語詞彙庫 近代漢語標記語料庫 #4 近代漢語詞彙庫 從近代漢語標記語料庫到近代漢語詞彙庫 近代漢語詞彙庫 先秦金文簡牘詞彙資料庫 先秦出土文字資料日益眾多,包括殷商時期的甲骨卜辭、商周春秋青銅器銘文、戰國秦漢時期的簡牘,數量龐大、內容豐富、未經竄改,是多數時空座標清楚的一手資料,更是建構語文座標時不能忽略的材料 以殷周金文為例,光是《殷周金文集成》一書收入有銘銅器拓片共一萬兩千餘件,除了反映社會現象外,也是一部忠實的殷周歷史。 擬對青銅器銘文作有效的分析與標誌,完成殷周春秋金文詞彙庫。並擬對戰國簡牘詞彙作精確的標誌,以便上與春秋金文、下與秦漢文獻詞彙貫串。 先秦金文簡牘詞彙資料庫 #1 .tw/ 先秦金文簡牘 詞彙資料庫 先秦金文簡牘詞彙資料庫 #2 先秦金文簡牘 詞彙資料庫 先秦金文簡牘詞彙資料庫 #3 先秦金文簡牘 詞彙資料庫 先秦金文簡牘詞彙資料庫 #4 先秦金文簡牘 詞彙資料庫 先秦金文簡牘詞彙資料庫 #5 先秦金文簡牘 詞彙資料庫 先秦金文簡牘詞彙資料庫 #6 先秦金文簡牘 詞彙資料庫 金文缺字問題 形體多變為古文字的重要特質—秦統一文字之前普遍的現象 部件位置不定 部件多寡不定 eg.寶 古文字與小篆部件分析相異比較 小篆的字與形體基本上是一對一的對應,金文通常一個字有多種形體 eg.福,揚 小篆已有《說文》做好基本部件分析,金文需由研究者一一作字根分析。 eg.盤 小篆字根基本上都可以有對應的楷定,金文的部件還有許多是無法楷定的圖形 eg.易 小篆基本上是以單個形體代表一個字,金文中有許多複合的圖形字。 eg.亞 小篆字粗細、筆畫一致,金文筆畫粗細變化差異很大。 先秦金文簡牘 詞彙資料庫 過去缺字問題的處理方法 黑豆豆 eg.● 留空手填 各造各的字 部件加減法 eg.[鬲口] 以小畫家畫出圖形字 先秦金文簡牘 詞彙資料庫 金文缺字的問題和需求 每一個異構字都有一個相對應的楷定字形。 每一楷定字形都可據部件作檢索。 同一金文字形允許一種以上不同的分析 無法完全作字根分析者,可用已知部件作檢索。 若某一字形有一、二部件無法作完整的字根分析,如何呈現字形? 完全無法分析的圖形字,怎麼辦? 無法理解的部件如何處理? 先秦金文簡牘 詞彙資料庫 以1990年代語料及50到60年代早期語料為增加典藏之重點 「語料庫」為無窮語言資料之代表性,取樣使語料真正呈現某個時代語言中之多面向內容,必須在取樣時考慮到多樣參數的平衡,參數的平衡同時也可以保證語料庫以後做多層次內部對比研究時具有有效意義。 知識處理上,目前真正有迫切需求,且有較高附加價值之語料庫,是已加上語法或語意標記者,即所謂的句結構資料(Treebank)或語意資料庫(Semantic Corpus)。句結構資料庫」之建立,以利於資訊檢索、擷取、自動問答、摘要等典藏處理應用上的附加價值。 二十世紀漢語語料庫與句法結構資料庫 中研院現代漢語平衡語料庫 #1 .tw/SinicaCorpus/ 二十世紀漢語語料庫

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档