- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 假设短语“红花|||Carthemi”已经在短语表中存在。我们来看一下这个时候的匹配流程。 这个时候判断(c,e)存在短语表中 * 仍然假设需要强制匹配 * 丢弃不含(c.e)的所有短语 * * 将包含(c,e)的词典特征加1,改变这个词典特征值。加入动态短语表中 * 得到新的动态短语表 * 判断本句中是否存在下一个动态词典词。 * 最后输出本句的动态短语表 * 介绍完了词典的使用策略以后,看实验结果部分 * 这是我们的实验设置情况,使用的是一个开源的解码器Camel, 这是一个基于短语的解码器,没有使用调序模型。 训练集、开发集、测试集均来自传统中医药领域,普通词典使用LDC词典,专业词典也来自传统中药领域,有15万多词条。 * 这张图是词典在训练部分的实验结果。 (1)模型介绍:Baseline只使用双语平行语料,没有使用词典。Baseline+CommonDict(1)代表只使用普通词典,baseline+DomainDict(1)+CommonDict(1)代表使用领域词典的权重为1,普通词典的权重也为1…. 。这几个权重的设置是经验值,与训练语料库本身的规模以及质量有关。本实验并不试图找出最佳的权重,只是观察权重改变后译文质量改变情况 * 比较baseline和加入普通词典的两个模型,在开发测试集上都有所提高,这说明普通词典的加入比较有帮助,我们认为主要原因在于缓解了数据稀疏的问题。 * 在加入普通词典的基础上,进一步加入领域词典,发现bleu值进一步提高。这说明数据稀疏问题得到进一步的解决,此外,领域词典中的词条与语料都是来自同一个领域的,相比普通词典来说对术语的翻译上更加地道一些。 * 既然领域词典的翻译是比较好的,那么我们继续增大词典的权重,这时候发现实验结果bleu并不总是提高,而继续增加普通词典权重,结果也是类似。 分析原因可能是词典权重的改变后改变了原有短语的概率分布,而这种概率分布的改变并不是有效的提高译文质量。 另一个原因是受词典质量的影响,某些词条属于多义词,词典译文可能和测试集中的译文并不一致。 总体来说,训练部分使用词典的主要作用是缓解数据稀疏问题。 * 这张图代表展示了将词典作为特征引入解码部分的效果。我们用+dictfeat代表加入了词典特征。可以看出,加入词典特征后,在各个模型上都有不同程度的提高。 词典特征的加入对面向领域的机器翻译系统有很好的效果,尤其是对于包含术语词汇较多的句子。使用词典特征后,含有术语的词典译文的句子概率提高,成为1-best的可能变大,术语翻译的正确性在很大程度上影响着用户体验。 * 看第二个例句,添加三个词典后,可以立刻将译文变为。。。 上面的例子可以看出,加入动态词典后,翻译结果更加接近参考译文。 另外,该算法的引入,使得用户可以动态的添加新词,并能立即在翻译结果中看到新词语的翻译,具有很好的即时性。 * 总结起来,我们这篇文章主要研究了词典在统计机器翻译系统中的三个应用: 1.在训练部分,加权使用普通词典和领域词典,词典的在训练部分的主要作用是解决数据稀疏问题。 2.在解码部分,我们将词典作为特征来使用。这种策略将鼓励解码器翻译出包含词典词更多的句子,在翻译一些含有术语较多的句子时会起到提高翻译质量的效果 3.在实用系统中,我们介绍了一种动态词典的匹配算法,由动态词典构造出动态短语表,满足了用户添加新词的需求。 本文的实验也表明我们提出的三种应用策略在不同的层面都对机器翻译系统都有所帮助。 (c,e)在本句短语表中存在 是否强制匹配 生成动态短语 c ||||e ||| … 1 丢弃不含(c,e)的所有短语 包含(c,e)的短语的词典特征加1,加入动态短语表 是否强制匹配 丢弃包含c的所有短语 N N N Y Y Y 对本句动态词典第一个词c,查找其词典译文e 将动态短语加入动态短语表 动态短语表 存在本句动态词典下一个词 输出本句动态短语表 Y N 红花 ||| Flos Carthami|||…1 红花 ||| of Flos Carthami|||…1 一 种 保健食品 , 由 红花 组成 , 可 制成 茶 的 形式 提纲 研究背景 词典在SMT的应用策略 训练部分 解码部分 实际系统中动态词典的使用 实验 总结 实验设置 解码器 Camel 语料情况 语料名称 规模 训练集 120355 开发集 1000 测试集 1000 普通词典(LDC词典ldc_cedict.gb.v3 ) 54170 专业词典 156912 Camel下载地址:/docs/download.php?proj_id=14prog_id=41 词典在训练部分作用实验结果 模型 普通词典权重 领域词典权重 Tst-bleu Dev-bleu Baseline
您可能关注的文档
- 探讨数字阅读与纸质阅读平衡.ppt
- 碳核查工作流程及典型问题.ppt
- 碳水化合物-糖.ppt
- 唐朝民族和睦与对外交流.ppt
- 唐诗宋词专题研究.ppt
- 糖尿病的饮食治疗 (3).ppt
- 糖尿病教学大纲.ppt
- 陶行知教育思想探微.ppt
- 淘宝开店操作流程.ppt
- 淘宝开店基础操作.ppt
- 2025福建福州市建设发展集团有限公司权属企业(筑地公司、嘉辰公司)社会招聘7人历年试题汇编附答案解.docx
- 2025贵州贵阳地铁物业管理有限公司招聘5人笔试参考题库附答案解析.docx
- 2025重庆市属事业单位第四季度遴选工作人员43人笔试题库及答案解析(夺冠).docx
- 2025甘肃煤田地质局高层次人才招聘2人历年题库含答案解析(夺冠).docx
- 2025至2030中国氦气行业市场深度分析及发展策略与投资风险报告.docx
- 2025至2030中国铰接臂AWP行业市场深度研究与战略咨询分析报告.docx
- 2025至2030中国减肥连锁行业市场发展现状及竞争格局与投资机会报告.docx
- 2025至2030中国公共安全楼宇内无线DAS系统行业市场占有率及有效策略与实施路径评估报告.docx
- 2025至2030中国民用航空器称重设备行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030中国呼吸气体监测仪行业市场占有率及有效策略与实施路径评估报告.docx
最近下载
- 岗位安全告知卡.docx
- 呼和浩特市八年级上学期期末地理试题(II)卷.doc VIP
- DL∕T 2544-2022 继电保护装置状态检修导则.pdf VIP
- 西师大版三年级上册数学分数的初步认识(课件).pptx
- 劳动项目七 手缝布偶 教案 人教版《劳动教育》七年级上册 .pdf VIP
- 八大特殊作业安全管理培训(最新版).pptx VIP
- JJF1059.1-2019测量不确定度评定与表示PPT课件.ppt VIP
- 《数据标注工程——概念、方法、工具与案例》教学课件—06文本数据标注.pptx VIP
- 深圳某小学项目交通影响评价报告 .pdf VIP
- 2025年山东省高考招生统一考试高考真题地理试卷(真题+答案).pdf VIP
原创力文档


文档评论(0)