Ch3 語料庫:語言智識ê另外一種表達形式.ppt

Ch3 語料庫:語言智識ê另外一種表達形式.ppt

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
計算語言學概論 Ch3 語料庫:語言智識ê 另外一種表達形式 楊允言 3.1 語料庫研究概況 Khng語言材料ê倉庫 語料庫khng ê是ti語言實際使用中真正出現過ê語言材料 語料庫是khng ti電腦內底ê語言智識ê基礎資源 真實語料愛經過分析、加工、處理,chiah會tàng chian做有路用ê基礎資源 3.1 語料庫研究概況-2 中研院平衡語料庫 企業(Na)競爭(VA)的(DE)遊戲(Na)規則(Na),都(D)已(D)因(Cbb)他們(Nh)... London-Lund英語口語語料庫 ^aren’t you. going to sit d/own# - / ^quite a nice . room to !s\it in (actually))# / 語料庫內底ê語言材料是真實ê書面語iah是口語,並且ti這個基礎頂面,做語言學ê加工kah分析 3.1 語料庫研究概況-3 語料庫分類 書面語 vs 口語 單語 vs 雙語 vs 多語 為著無kang ê應用目標,做無kang層次ê加工 3.1 語料庫研究概況-4 語料庫ê應用 編辭典 Lexicography (專家 vs 語料) 語言學研究 歷時 (台語ti無kang時代ê差異) 共時 (kang時陣 ê華語(台灣、中國、新加坡、香港、…) / 英語(美國、英國、澳洲、…) 語言教學 文學/社會學研究 … 3.1 語料庫研究概況-5 語料庫發展簡史 Chomsky反對語料庫研究 自然語言本身會tàng產生無限ê話句,語料庫koh-khah大,ma kan-na是一小部分 真實語料一般無包括錯誤ê話句,ma無包含無禮貌ê話句 研究者個人ê語言直覺ti語言研究中ê重要性 3.1 語料庫研究概況-6 第一代:1970年代~1980年代 Brown Corpus 美國Brown大學ti 60年代初期,建立世界第一個根據系統性原則採集樣本ê標準語料庫,規模是100萬word tokens,代表當時ê美國英語。 70年代,利用規則方法建立詞性標記系統TAGGIT,正確率大約77% 3.1 語料庫研究概況-7 第一代:1970年代~1980年代 LOB Corpus 70年代初期,英國Lancaster大學語言學家Leech提議,Norway Oslo大學主持,最後khng ti Norway Bergen大學Norway人文科學計算中心 80年代Leech領導ê UCREL (Univ. Centre for Corpus Research on Language)研究小組替LOB設計133個標記,用統計方法開發CLAWS詞性標記系統,正確率有96% 3.1 語料庫研究概況-8 第一代:1970年代~1980年代 London-Lund Corpus (LLC) 60年代初期,錄2000點鐘 ê講話kah廣播語料,整理做書面資料 後來瑞典 Lund 大學ka轉做電子檔案,1975年建立 London-Lund 英語口語語料庫 以上三個語料庫lóng khng ti Norway Bergen大學 ICAME (International Computer Archive of Modern English) ê資料庫內底 3.1 語料庫研究概況-9 第二代:1980年代~1990年代 COBUILD語料庫 第一個為著編辭典建立ê語料庫。 英國Birmingham大學kah Collins出版社合作,規模是2,000萬詞 1987年出版英語辭典,詞條ê選擇、用法說明、解說、例句lóng 根據語料庫 3.1 語料庫研究概況-10 第二代:1980年代~1990年代 Longman語料庫 80年代開始建立,包括(1) Longman/Lancaster英語語料庫 (2) Longman口語語料庫 (3) Longman英語學習語料庫 目標:編英語學習辭典,服務學習英語ê外國人 規模:5,000萬詞 第二代ùi純學術研究行向編辭典ê應用,而且商業上得著成功 3.1 語料庫研究概況-11 第三代:1990年代~ ACL/DCI 語料庫 美國計算語言學會(ACL)提議發起 收集範圍包括Wall Street Journal、 Collins英語辭典、Brown Corpus、Upenn tree bank、部分雙語/多語文本 包括tagged corpus kah untagged corpus(raw corpus) 採用SGML(Structured Generalized Markup Language),Tagging遵照 TEI (Text Encoding Initiative) 標準 3.1 語料庫研究概況-12 第三代:1990年代~ UPenn Tree B

文档评论(0)

绿风 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档