机械翻訳勉强会论文绍介.PPT

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机械翻訳勉强会论文绍介

機械翻訳勉強会 論文紹介 mamoru-k 小町守 今日読む論文 Statistical Phrase-Based Translation Philipp Koehn, Franz Josef Och, Daniel March HLT-NAACL(2003) この論文に書いてあること 句ベースのモデルが単語ベースのモデルより性能がよいという実験結果 ヒューリスティックな句翻訳と句翻訳にかける語彙の重みで性能が上がる 統語的な関係しか見ない句だけを使うとむしろ性能が下がる? イントロダクション 句翻訳を使うことで統計翻訳の質は向上してきた(1999-2002) 句翻訳対を抽出するためいちばんいい方法はなにか? この論文では句翻訳の表を作る評価フレームワークを提案 高い性能を得るためには 比較的単純な方法で十分 ツールも資源も研究者はフリーで入手可能 統語的情報を使っても性能はよくならない 3単語までの小さな句を使うだけで高い精度を得るには十分 単語のアライメントからヒューリスティックに獲得した句翻訳表を使う ヒューリスティックは言語対?訓練コーパスによって異なる 評価フレームワーク まず句抽出方法の比較のために評価フレームワークを作成 句翻訳モデルと、どんな句翻訳表でも使えるデコーダの提案 句翻訳モデル 雑音チャネルモデル デコードの際には文 は I 個の句 に分割される 英語 e の最適出力 トライグラム 句ベース翻訳モデル デコーダ ビームサーチアルゴリズム(Jelinek [1998]) 英語の文は部分的翻訳(仮説)の形で左から右に生成される デコードのアルゴリズム 空仮説から始める 以下の手順で既存の仮説から新しい仮説を作る 未翻訳の外国語単語列に対し、英語の句による翻訳が可能であればそれを選択 英語の句はそれまでの翻訳につけ足す 翻訳した外国語を翻訳済みとマークし、仮説の確率コストを更新 未翻訳の単語がない最終仮説で一番コストが低いものが探索の出力 仮説生成の問題点 仮説はスタックに積まれるので、スタックの大きさは入力の文の長さに指数関数的に増大 それまでの発生コストとそれからの予測コストで弱仮説の枝刈りをする 発生コストは n-best 予測コストは句翻訳コストだけ考慮 句翻訳コストの計算 文内で句翻訳可能なところ(翻訳選択肢と呼ぶ)では、予測コストは句翻訳確率と言語モデルの確率をかけたもの 翻訳選択肢のコストが分かれば連接する外国語の句翻訳予測コストは事前に計算可能 弱仮説の枝刈り distortion コストは無視 句翻訳コストは動的計画法により計算 長さ n の入力文だと n(n+1)/2 個の連接する2単語があるので、それらについて事前に計算して表に入れておく 翻訳の際には未翻訳の単語のコスト見積もりは表を見るだけでよい ビームサーチの計算量 ビームの大きさは定数 翻訳選択肢の数は入力文の長さに比例 ビームサーチの時間計算量は 入力文の長さの二乗に比例 ビームの大きさに比例 句翻訳の学習方法 単語単位でアライメントのついたコーパスから学習(Och et al. [1999]) 構文解析結果のアノテーションがついた単語アライメントつきコーパスから学習(Yamada and Knight [2001], Imamura [2002]) パラレルコーパスから直接句レベルのアライメントを学習(Marcu and Wond [2002]) 単語のアライメントから学習 Giza++ ツールキット(Och and Ney [2000]) を使う 単語アライメントと矛盾しないアライメントのついた句の対を集める 句翻訳確率分布は以下で計算: 統語的句の学習 (発想)単語アライメントと矛盾しない句全部取ってきたら、“house the” のような変な句まで取ってくるのでは? 統語的句だけしか取らなければそういう変な句は除くことができるのではないか 統語的句の集め方 統語的句 = 構文解析木のひとつのサブツリーに入る単語列(Imamura [2002]) 前節と同じく単語アライメントつきパラレルコーパスを使用 いずれのコーパスもその言語の構文解析器で解析し、単語アライメントのある句の対に関して解析木のサブツリーに入っているかどうかチェック 句アライメントによる学習 翻訳元の言語と翻訳対象言語の文をパラレルコーパスから同時に生成する句ベースの同時確率モデルを EM により学習句レベルの対応を学習(Marcu and Wong [2002]) 実験 Europal コーパス フリーで使える EU の11の公式言語それぞれにつき2,000万語以上収録 ヨーロッパ議会の議事録(1996-2001) 長さ5-15の1,755文をテスト

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档