- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
双语对应语料库检索研究
雙語對應語料庫檢索研究
第七節 雙語庫檢索平台研究
第八節 漢英近義句翻譯檢索
第九節 英漢對應詞的自動提取
郭育倫
第七節 雙語庫檢索平台研究
前言
大型雙語對應語料庫的應用前景包括支持機器翻譯和發展雙語對比研究工作,為此需要研制雙語語料庫的有效處理工具。雙語語料庫處理工具集分為兩類:一是雙語語料庫加工工具,包括雙語對齊工具、中文分詞和標注工具、英文斷詞(tokenization)、型態還原和詞性標注工具;二是雙語語料庫的發展和應用工具。
雙語對應語料庫檢索平台是基於大規模雙語語料庫的檢索工具
輔助翻譯
雙語詞典編纂
漢英對比研究
辭典編纂人員可從語料庫中選擇有代表性的高頻用例
基本設計目標
建立快速有效的索引組織
支持中英文的模糊檢索和複雜檢索
實現語料庫的中文詞頻、英文詞頻統計
使檢索結果自動排序
功能實現
英文模糊檢索
為了支持英文的模糊檢索,雙語語料庫檢索平台內嵌一部英文單詞詞形變化詞典。系統在初始化過程中構建英文詞形詞典的hash表,通過hash方法,可以迅速獲得英文詞模糊檢索結果。
帶運算符的複雜檢索
雙語語料檢索平台定義了運算符
一目運算符 敘述 * 指定顯示時的焦點詞 ! 模糊檢索 / 指定中文詞的詞性 二目運算符 ? + 檢索項的連結運算 % 指定檢索項之間的距離 - 指定兩個檢索項間的排除詞 | 檢索項的or運算
『*』
指出指定的焦點詞
『!』
英文模糊檢索
“! be” ( “be”, “is”, “are”, “were”, “been”等be的一系列詞形變化後對應的單詞
中文模糊檢索
“! 農” ( “農村”, “農業”, “貧農” 等包含農的中文詞
『/』
“鎖/v” ( 動詞“鎖”
『+』
“民主+作風” (“民主作風”
『%』、『-』
“as far as”
“as%2as” (as well as, as soon as, as long as
“as%2as-well”
『|』
or運算
中國|美國
因為常會出現如 “A..…B”型的語句,所以允許在表達式中出現數字
如: 檢索 “因為….所以”
表達式: “因為+10所以”
運算符Priority
最高: 『*』,『!』,『/』
次高: 『+』,『%』,『-』
最低: 『|』
範例
例: !A + 5*B –C
找到運算符『*』,獲得焦點詞B
檢索項『! A』、『5B』、『C』
運算符『+』、『-』
從檢索取第一項『! A』( result1
取運算符『+』、檢索項『5B』,在result1基礎獲得B距離 !A五個單詞內的結果(result2
取運算符『-』、檢索項『C』 ,在result2基礎獲得 !A、B單詞間不出現C(result3
頻統計計
利用所以文件(記錄了每篇文檔所有詞的訊息),採用hash的方法,可以快速的實現詞頻統計。該系統實現了對家載語料的詞頻(中文、英文)統計的功能,且可以選擇是否帶詞類標記。
檢索結果排序
該系統實現了一次排序最多指定三個排序關鍵詞,即第一排序關鍵詞、第二排序關鍵詞與第三排序關鍵詞,並且每個排序關鍵詞可以靈活指定,每一個排序關鍵詞可獨立按升序或降序排序
可以作為排序關鍵詞的有:檢索詞,檢索詞左邊第一詞,檢索詞左邊第二詞,檢索詞左邊第三詞,檢索詞右邊第一詞,檢索詞右邊第二詞,檢索詞右邊第三詞
第八節 漢英近義句翻譯檢索
前言
傳統的統計方法,包括句子長度關聯法和詞頻與分別判別法,都有其侷限性。Fung Church (1994)提出K-vec算法結合mutual information與T-score等兩個統計方法來計算兩個詞在文件內部區段的共現關聯性。此節中作者加以改良後,在小型漢英雙語語料庫上實驗,不但利用文章內部區段共現的機率,也收集數十篇對應文本,再以中文詞與英文詞出現在同一文本的機率來過濾Fung Church算法,所得結果的精確度有大幅提高。
對應詞句的自動搜尋
英漢電子辭典可以用來搜尋平行對應語料庫中對應的中英文詞語,進而猜測句子的對應
精確匹配
只能搜尋到有限的翻譯對應
部分匹配
搜尋到較多的翻譯對應
可能與上下文不合造成對應錯誤
統計方法
統計方法的優點在於只需要大量語料庫,不需要詞典或語言知識即可搜尋出句子的對應。統計的方法有兩種,一種是直接利用句子長度關聯性的假設,也就是說,如果原文某ㄧ句較長,那麼翻譯的句子應該也會較長,再利用動態規劃的技巧查找出哪ㄧ句最有可能對應哪ㄧ句。
Gale Church (1993)利用加拿大國會英法雙語資料查找出段落的標記後再搜尋句子對應,正確率在93%以上。如表中,英法雙語語料有89%的句子是一對一對應。
Category Frequency Prob (match) 1-1 1167 0
文档评论(0)