词的频率与分布情形.ppt

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
词的频率与分布情形

頁尾文字 雙語對應語料庫檢索研究 Reporter: Yu Lun Kuo ( E-mail: sscc6991@ Date: June 14, 2007 雙語庫檢索平台研究 雙語對應語料庫是信息處理研究的重要基礎 雙語對應語料庫檢索平台是基於大規模雙語語料庫的檢索工具 輔助翻譯 雙語詞典編纂 漢英對比研究 辭典編纂人員可從語料庫中選擇有代表性的高頻用例 模糊檢索和複雜檢索 運算符表 模糊檢索 『*』 指出指定的焦點詞 『!』 英文模糊檢索 “! be” ? “be”, “is”, “are”, “were”, “been”等be的一系列詞形變化後對應的單詞 中文模糊檢索 “! 農” ? “農村”, “農業”, “貧農” 等包含農的中文詞 『/』 “鎖/v” ? 動詞“鎖” 複雜檢索 『+』 “民主+作風” ?“民主作風” 『%』、『-』 “as far as” “as%2as” ?as well as, as soon as, as long as “as%2as-well” 『|』 or運算 中國|美國 因為常會出現如 “A..…B”型的語句,所以允許在表達式中出現數字 如: 檢索 “因為….所以” 表達式: “因為+10所以” 運算符Priority 最高: 『*』,『!』,『/』 次高: 『+』,『%』,『-』 最低: 『|』 例: !A + 5*B –C 找到運算符『*』,獲得焦點詞B 檢索項『! A』、『5B』、『C』 運算符『+』、『-』 從檢索取第一項『! A』? result1 取運算符『+』、檢索項『5B』,在result1基礎獲得B距離 !A五個單詞內的結果 ?result2 取運算符『-』、檢索項『C』 ,在result2基礎獲得 !A、B單詞間不出現C ?result3 漢英近義句翻譯檢索 英漢電子辭典可以用來搜尋平行對應語料庫中對應的中英文詞語,進而猜測句子的對應 精確匹配 只能搜尋到有限的翻譯對應 部分匹配 搜尋到較多的翻譯對應 可能與上下文不合造成對應錯誤 統計方法 優點: 只需要大量語料庫 句子長度的關連性 原文某一句較長,那翻譯的句子應該也會比較長 詞的頻率與分布情形 根據詞在文章中出現位置的分布情形與出現頻率 句子長度關聯性 (1/2) Gale Church (1993) 加拿大國會英法雙語資料 句子長度關聯性 (2/2) Gao (1998) 中英雙語語料,中文句點或逗點作單位 中文句點 中文逗點 詞的頻率與分布情形 (1/3) 缺點: (Fung Church (1994)) 受『頻率』『語系』『文類』『風格』影響很大 只能抽取頻率不高不低的詞彙 翻譯需透過上下文判斷 如何有效結合『統計』與『語言知識』 詞的頻率與分布情形 (2/3) Fung Church 如果有兩篇互相對應的文章,某語言的一個詞與另一語言的一個詞在某些區段一起出現的機率大於分別出現的機率 詞頻太高或太低都不適合此演算法 太低 – 可能是巧合 太高 – 可能是功能詞,必須先排除掉 詞的頻率與分布情形 (3/3) Fung Church 結合mutual information與T-score兩個統計方法 Mutual information Log2 ((P(A∩B) / P(A)*P(B)) = Log2 (f(x,y) / f(x)*f(y)) 數值越高表示詞的關連性越高,當語料庫夠大時,數值大於1.65表示兩個詞常常一起出現 T-score T值大於1.65時,表示有95%的信心證明差異存在 Gao應用Fung Church實驗 詞的頻率與分布情形 Gao (1998) 改良Fung Church (1994)方法 計算中文與 英文的文章段落數目是否一樣 收集數十篇對應文本,再以中文與英文詞出現再同一文本的機率來過濾Fung Church (1994)演算法所得到的結果 精確度提升至90%以上 上下文 完全字符串匹配 部分字符串匹配 排除功能詞 ex.的 找出相鄰兩個英文詞至少有一個字詞與詞典翻譯相吻合的連續詞 (*) Gao利用部分匹配與緊鄰原則 Compare with K-vec Gao’s Future Work 以字為單位比對 上班 vs. 上海 中國 vs. 國中 上海 vs. 海上 以詞為單位比對 把 手舉起 vs. 把手 舉起 以詞為單位比對,但詞序不同 信用卡遺失該怎麼處理 vs. 該怎麼處理信用卡遺失 同義詞組而非同義辭 她數學不及格 vs. 她數學被當 目前一對一 ? 多對多 一般而言,詞典中收錄的詞條以單詞為主 但通常也會收錄包含兩個乃至多個單詞的固定搭配 Take ? take after (相似), take up (

您可能关注的文档

文档评论(0)

yanpizhuang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档