- 1、本文档共51页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
スライド .dl.itc.u-
移行派原理主義の問題点 レベルが上がるにつれて構造が大きくなる。それでも言語AからBへ移行できるのは、 部分の意味は一度決まると、それを組み合わせることで全体の意味が決まるという構成性原理を前提にしてるからなのだが…… 言語A,B間で単語の対応は一意的でない。 湯、水 ? water 一方の言語にしか存在しない文法的性質や機能語あり 冠詞、名詞の性 それでも複雑な変換表を作ればなんとかごまかせるかも 移行派原理主義の問題点 最も深刻なのは 意味の文脈依存性 名詞の単数、複数の区別のない言語Aからある言語Bへ変換するには、文脈情報が必要。しかも文脈の数は無限。 デフォールトを単数に変換し、文脈で証拠が出れば複数と変換。 「けっこうです」?”thank you” or “no thank you” デフォールトでは解けない!? 記号について-- 少し視野を広げ人工知能の視点から-- 記号と公理系から閉じた知識体系を作る(前記ヴィトゲンシュタイン) 記号はそれ自体でひとつの存在。記号を用いた推論は、想定する集合上での操作として定義できる(外延的論理) 80年代までの人口知能はこの路線だった。なにしろ、入出力が貧弱で計算機の外側の世界と通信できなかったから しかし、限定目的の貧弱なシステムしか作れなかった。(エキスパートシステム) 80年代後半から外界とのインタラクションが重視されるようになった。 ロボットにおける subsumption architecture 分散知能 エージェント(これは現在ではソフトウェア工学) 文脈情報を考慮した記号処理への動き 記号は、 a. コアになる意味 b. 文脈に依存した、つまり言語使用における意味 からなる。 そこで、b.を考慮するために事例を大量に集めて事例ベース翻訳が考案された。 翻訳事例 「太郎は小説を読んだ」 vs “Taro read a novel” には太郎=人間、小説=文字メディア、という文脈によって「読む」を規定する力あり。 しかし、それにしても個々の単語のコアな意味は予め与えないと動かない。 文脈情報を考慮した記号処理への動き 単語の意味 単語の意味を要素に分解して表現する方法(80年代) Kill = cause (someone (alive ? death)) 何を基本要素におけば十分なのか? 90年代以降の主流は その単語が使われた文脈に共起する単語で意味の曖昧さを解消する。 大規模コーパス(20ヶ月分のNYタイムス)で、 capital の資本、首都の意味の曖昧さ解消などが90%の精度でできた。 未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている。 経験主義あるいはデータ主義 文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義 IBMの統計的機械翻訳(90年代初頭) 人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見した。 EM, ビタビ探索など 大量のメモリと高速な計算機 大量の質のよい翻訳文の対(教師データ) これがなかなか簡単に入手できない 現実には、質の悪い翻訳対データでなんとかしないと 対訳でない場合。同じ内容について、あるいは同じトピックについての述べている2言語コーパス 基本語彙の辞書くらいはある 計算機は早いし、記憶容量も大きいとは言え 機械学習パラダイムもなんとなく出尽くした?? 人間との共同作業?? 補遺:2言語コーパスからの対訳抽出 Parallel Corpus(平行、対訳コーパス) Aligned Corpus: 種々の研究あり。要はどのようにして2つの言語のコーパスにおける文、単語、複合語、句を 対応付ける(align) するかに集中。 90年代前半にきれいな2言語対訳コーパスを対象にした多数の研究があり。 90年代後半に、Noisy Parallel Corpus への展開が試みられた (Fung94,Fung98) 二言語コーパスからの対訳抽出 -- Aligned corpus の場合-- 対訳コーパスからの対応文のペアを求める Gale and Church 1993 2言語の文書 S,Tから対応付け(Alignment) Aを求める。 SとTの対応する文のペアを bead という。 例 B=(言語 language), B=(les eaux mineral, mineral water) Alignment=argmaxA P(A|S,T)= argmaxA P(A,S,T) Bkは 文書先頭からk番目の構造(名詞句などのようなもの) 対訳コーパスからの対応文のペアを求める 例 B=(言語
您可能关注的文档
- 「以多元文化能力觀點探討老人社會工作」研討會計畫.doc
- 「千葉県産業廃棄物リサイクル技術普及.doc
- 「圖書館新建工程」委託規劃設計監造技術服務應徵須知.doc
- 「ossgis黎明期から普及期へ」.ppt
- 「平成24年度研究成果展示会及び普及講習会」開催の.doc
- 「性別平等教育法」.ppt
- 「平成17年6月期中期経営計画」.ppt
- 「我最喜歡的教師」之行為分析.ppt
- 「新エネ大賞」詳細調査導入事例の部.doc
- 「新北市建築物、土地改良、雜項工作物等工程造價標準.doc
- 2025届高考生物高频考点复习讲义:专题21 现代生物进化理论.pdf
- 2025届高考生物高频考点复习讲义:专题20 染色体变异与生物育种.pdf
- (部编版)2025届中考语文默写+文言文字词翻译+基础选择题:专题19 基础选择题(一).pdf
- 2025届高考生物高频考点复习讲义:专题18 基因的表达.pdf
- 2025届高考生物高频考点复习讲义:专题2 细胞中的无机物、糖类与脂质.pdf
- 2025届高考生物高频考点复习讲义:专题15 伴性遗传与人类遗传病.pdf
- 2025届高考生物高频考点复习讲义:专题6 细胞的物质输入与输出.pdf
- 2025届高考生物高频考点复习讲义:专题13 基因的分离定律.pdf
- 2025年中考总复习物理知识必备手册:专题13 初中物理14个重要测量仪器使用与读数问题.pdf
- 湖南省株洲市醴陵市第四中学2025届高三上物理期中调研模拟试题含解析.doc
文档评论(0)