双语对应语料库及其研制.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
雙語對應語料庫及其研製 語料庫語言學 計算機儲存大量真實語料,作各種帶有研究目的的加工標注。利用工具對標注語料進行快捷的搜尋及分類,以發現並分析以往未能注意的語言現象。 有助於辭典研編、翻譯、語言教學、文體、語言對比、計算語言學等研究領域 語料庫 單語:BNC、CBECobuild、Brown、TEC 雙語/多語 Parallel corpora:ENPC Im Huang Baile. Im 36 years old and Ive represented Taiwan in international rock climbing competitions for over ten years. 我,黃百樂,今年36歲,身為中華民國職業攀岩國手已經超過10年 語料庫 雙語/多語 Comparable corpora:IEC 民視新聞英文 Translational corpora:TEC 翻譯理論 語言對比 Parallel corpora:同一內容如何用兩種語言表達的(有翻譯腔) 對MT、CAT較有用 EBMT、TM、CLIR Comparable corpora:不同語言的母語文本,缺少翻譯研究方面的優勢 慎選翻譯方向 單語語料庫 專業領域的理解 術語的準確選用 習慣表達 國內外雙語語料庫現狀 Early 60s:LOB、BROWN Early 90s:英文和歐洲其他各語言 Later :擴展到英文及歐洲之外一些語言 Now :幾乎覆蓋所有主要語言 中文 The Babel English-Chinese Parallel Corpus * Wu HKUST中英對應語料庫 Gao Sinorama 中英對應語料庫 建立語料庫注意事項 翻譯質量 平衡語料庫 或 特殊語體、題材 取樣:全文收錄?取樣收錄? 語料標注 主要處理 中文分詞* 文本結構*及文本來源:題目、段落、句子、作者 詞性標注* (ICT、CKIP) 句子結構標注(syntactic parsing) 語意 語料對齊 最常見:句對應 基於句子長度 基於詞彙對譯數目 語料庫對齊的應用 軟體: Gate:Proper name detection ParaConc: sentence alignment MLCT:generates concordances and wordlists on Unicode font. Works 雙語詞庫提取、辭典編寫 機器翻譯 Example-based MT 翻譯知識:提取翻譯模型、提取翻譯規則 CLIR 翻譯轉換研究(以被動句為例) 英 有施事的被動句 無施事的被動句 準被動句 中 那台電腦是上個月才買的 在實踐過程中學員們的水準得到了提高 去年又發現了一種稀有元素 翻譯文體/風格研究 由UMIST教授Mona Baker 發展 譯者情形 翻譯類型 源語 原書情況 都是翻譯風格的重要信息 詞類/標記比例、平均句長、敘事結構(關鍵詞語/頻率/復現模式) 辭典研編 辭典中未收錄 在辭典和語料庫中表達不同,或道地、或精簡 及另一種選擇 對應的詞語、短語、句子、都可找到更多對應 通用漢英對應語料庫 中國外語教育研究中心(王克非) 通用漢英雙語對應語料庫 翻譯文本庫 百科語料庫 對譯語料庫 語料加工 雙語對應-篇章級對齊-段級對齊-句級對齊-標記 語料校對 漢日對應語料庫 中日對譯語料庫(北京外國語大學) 收入2013萬餘字 語料:對譯小說文本 詩歌 散文 傳記 .etc 各作分詞 詞性標注 中:北京大學 slex ;日:chasen 建立專名辭典 結合人工校對提升準確率 具備字串檢索、句型檢索、RE檢索等適應各種語言研究和翻譯研究要求的檢索。 THANK YOU * Yen-Hsi Lin chap 2 chap 2 chap 3 chap 3 chap 3 chap 4 chap 4 chap 4 chap 5 chap 6 chap 6 * *

文档评论(0)

3388813 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档