基于语篇的机器翻译前瞻研究.pdfVIP

  • 5
  • 0
  • 约2.51万字
  • 约 11页
  • 2017-12-29 发布于广东
  • 举报
基于语篇的机器翻译前瞻1 史晓东,陈毅东 厦门大学人工智能研究所361005 ado.cn mandel.ydchen@xmIL statisticalmachine translateeach∞otcnccwithout the Abstract:Today。s translation(MDsystems considering context isin contmsttothehuman of providcdbyprevioussentences,whichsharp practice.where reordering andev∞$eotcnccstothe common.The is introduces phrases,clauses accordingtargcnlanguage paper where be discourse-basedits research out mostresearchshouldfocusedand MT,outlines major areas,points itsfutum. speculates words:Discourse-bascdStatisticalMachineTranslatioo Key l引论 近年来,统计机器翻译研究持续升温,多个统计机器翻译系统在以NIST为代表的评测 中全面超越传统的基于规则的系统。许多人(包括著名的统计机器翻译专家Kevin Knight) 认为,达到类似人的翻译质量的机器翻译系统已经不是一个梦想“‘“。 但是,他们也许太乐观了一点。现有的统计机器翻译模型还是相当粗糙的。虽然2000 年以来,统计机器翻译系统已经从经典的基于单词的IBM系统”’,发展为基于短语的系统(在 测中几乎与最好的短语系统平分秋色,在某些方面还略擅胜场)16.71,但是.译文仍然存在 大量的翻译错误,被形象地称之为WordSalad。早在1998年,我国著名机器翻译专家,第 一个商品化的机器翻译系统开发者董振东先生说”1,“迄今为止。绝大多数的实用型机译系 统都是以一个句子为其加工单位的。也就是说它们的分析和生成都仅仅局限在一个孤立的句 子范围内。”这一点至今都没有改变。因此,如果翻译的内容是一篇文章,由于相邻句子的 翻译互不搭界.其译文经常龃龉。 翻译学界一般认为,翻译就是求意义等价。而等价的单位是分层次的.体现在音节(音 素)、单词、短语、子句、句子、段落、语篇等不同的单位。好的翻译是各个层次都要对等。 由于语言之间的差异,句子之间经常难以在意义上对应。仅仅把句子作为翻译单位是不够的。 这一点在自然语言处理的其他方面也得到了佐证。如在文本对齐的研究中,在段落的层面上, 可以得到接近100%的对齐准确率,但是在句子层面.对于欧洲语言.只有90%的对齐是1:l 的。对于东方语言和西方语言之间的对齐,因为句法差别很大,在句子级1:1对齐的情形要 少得多。对于汉英对齐.因为汉语句法的灵活性以及在标点(主要是逗号)用法方面的不严 格。如果以句号作为断句和翻译的单位。显然不很合适。 从语篇语言学的观点,汉语是主题型的语言,大量采用省略,比英语是更加面向语篇的。 奉文受到茸家自然科学基金(.国寡8

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档