- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
HIT - 1 目录 1 2 3 机器翻译概述 机器翻译的原理及方法 理解语言,机器翻译的根本瓶颈 - 2 机器翻译 - 3 机器翻译的定义 机器翻译( Machine Translation ),是使用电子计算机把一 种自然语言(源语言, Source Language )翻译成另外一种 自然语言(目标语言, Target Language )的一种学科。 这门新学科同时也是一门新技术,它涉及到语言学,计算机科 学,数学等许多部门,是非常典型的多边缘交叉学科。 — 在语言学中,机器翻译是计算语言学的研究领域 — 在计算机科学中,机器翻译是人工智能的研究领域 — 在数学中,机器翻译是数理逻辑和形式化方法的研究领 域 - 4 机器翻译的方法 按转换层面划分 — 直接翻译方法 — 句法转换方法 — 语义转换方法 — 中间语言方法 按知识表示形式划分 — 基于规则的方法 — 基于实例的方法 — 统计的方法 - 5 基于句法的统计机器翻译方法 基于统计的翻译方法是 IBM 的学者提出,可以归纳为三个重要 部分,分别为语言模型的建模、翻译模型的建模以及解码三个 子部分。 语言模型的建模问题是统计估计中的一个经典问题,即根据当 前词预测下一个词。它是语音识别或光学字符识别的基础,同 时也被用来进行拼写纠错、手写体识别以及统计机器翻译。 - 6 基于句法的统计机器翻译方法 基于短语的统计翻译方法的问题 ? 泛化能力差 – 中国大使馆、美国大使馆 → 月球大使馆? ? 产生的句子不符合语法 – 短语的简单组合,没有句法结构 ? 无法表示不连续的短语搭配的翻译 – 召开了一次关于 … 的会议 hold a meeting on … ? 无法进行长距离的语序调整 ? 解决办法:引入句法结构! - 7 基于句法的统计机器翻译方法 形式上基于句法的模型 – 不使用任何语言学知识 – 所有句法结构直接从未标注的语料库中自动学习得到 – 使用语言学知识 – 语言通常要从句法树库训练得到 ? 树到串模型:只在源语言端使用语言知识 ? 串到树模型:只在目标语言端使用语言知识 ? 树到树模型:在源语言端和目标语言端都使用语言知识 - 8 语言学上基于句法的模型 基于句法的统计机器翻译方法 基于树到串对齐模板的翻译模型 ? 基于树到串对齐模板(简称 TAT )的统计翻译模型是一种 在源语言进行句法分析的基于语言学句法结构的统计翻译模型 ? 树到串对齐模板既可以生成终结符也可以生成非终结符既 可以执行局部重排序也可以执行全局重排序 ? 从经过词语对齐和源语言句法分析的双语语料库上自底向 上自动抽取 TAT - 9 基于句法的统计机器翻译方法 解码 解码问题最重要的是如何设计合适的搜索策略来获得 最佳翻译效果,以及如何解决空间爆炸问题,为尽可 能在有限的时间内找到最优解,必须采用启发式算法。 最常用的有柱搜索算法、 A* 算法以及堆栈搜索算法。 - 10 基于句法的统计机器翻译方法 解码 ? 自底向上 ? 柱搜索( Beam Search ) ? 对于每一棵子树,找到所有与其根节点匹配的 TAT ,计算其 候选译文( Candidate ) ? 候选译文( Candidate )的数据结构: – TAT 序列 – 部分翻译结果 – 累积的特征值 – 累积的概率值 - 11 基于句法的统计机器翻译方法 柱搜索算法 采用宽度优先的方式构建搜索树,在搜索树的每层采用启发式 函数对扩展的状态进行评分,通过剪枝选取 N 个最优的状态进 行扩展 - 12 基于句法的统计机器翻译方法 * 假设合并 — 汉语词位置相同 — 最后两个英语词相同 — 上一次翻译的汉语短语的最后一个词的位置相同 * 柱状图剪枝 若假设栈中假设的数目超过设定的最大值,将假设栈中评分 低的剪去 * 阈值剪枝 设置栈中假设的最低概率值,当新假设小于阈值的时候进行 剪枝 - 剪枝策略 13 基于句法的统计机器翻译方法 - 14 机器翻译的瓶颈 之前进行的机器翻译的有益的探索中,凡是取得了结果的研究, 大都努力避开理解语言这一过程。因为这一过程本身涉及到了 AI 的终极目标,机器的智能化。然而,这又是一个无法回避的 问题,不能理解语言就不可能进行真正意义上的翻译。 - 15 机器翻译的瓶颈 《 burning 》 Passion is sweet Love makes weak You said you cherished freedom so You refuse to let it go - 原文译文: 强烈的感情是甜蜜的 而爱使我们脆弱 你说你珍惜你的自由 所以你拒绝丢失它 机器译文: 激情是甜的 爱使弱 你说你珍惜的自由,以便 你不让它去 16 机器翻译的瓶颈 上文已经进行过论述过,要实现真
您可能关注的文档
最近下载
- 2023-2024学年广东省深圳市百合外国语学校数学八上期末复习检测试题含答案.doc VIP
- 质量员(土建)岗位知识与专业技能讲义(打印版).pdf VIP
- 文职军需管理面试题库及答案.doc VIP
- 基于核心素养的初中数学与物理跨学科主题探究策略研究论文.docx
- 动物医学毕业论文【精选文档】 .pdf VIP
- T_DACS 018—2024(荷斯坦后备牛生长目标与评估规范).pdf VIP
- 山东省潍坊市2025-2026学年高三上学期开学调研监测考试化学试卷(含答案).pdf VIP
- 文职军需管理笔试题及答案.doc VIP
- 海尔施特劳斯软水机HSW-WS6B用户手册.pdf
- 爱学娃基本笔画控笔训练-v20200407.pdf VIP
原创力文档


文档评论(0)