人机翻译英语被动句相似度的向量距离测算-西安交通大学学报社科版.PDFVIP

  • 8
  • 0
  • 约2.41万字
  • 约 7页
  • 2018-03-10 发布于天津
  • 举报

人机翻译英语被动句相似度的向量距离测算-西安交通大学学报社科版.PDF

人机翻译英语被动句相似度的向量距离测算-西安交通大学学报社科版

2016年5月          西安交通大学学报(社会科学版)           May2016 第36卷第3期(总137期)  JournalofXi′anJiaotongUniversity(SocialSciences) Vol.36(SumNo.137) DOI:10.15896/j.xjtuskxb.201603016 人机翻译英语被动句相似度的向量距离测算 蒋 跃,张英贤,韩红建 (西安交通大学 外国语学院,陕西 西安710049) [摘 要] 基于语料库翻译学和文本挖掘的方法,提出了一种将向量空间模型与主成分分析相结合的向量 距离算法,用以测算在线机器翻译(“在线机译”)与人工翻译在对应翻译英语被动句上的相似度。测算结果 表明,人工译本和在线机译都体现了英语被动句翻译的不对等性,均将少量英语被动句译成汉语被动句。研 究结果或为译本对比及文本相似度的测量提供一种新的数理统计算法,从而更加客观、科学地对比译本之间 的异同。 [关键词] 在线机译;被动句;相似度;向量空间模型;主成分分析;向量距离 [中图分类号] H059  [文献标识码] A  [文章编号] 1008245X(2016)03011007   文本数据挖掘是从大量无结构文本中,发现隐含 意义上的客观科学的研究。近年来,已有多位学者转 信息和新知识的过程,商业价值很高。它与自然语言 向定量分析语言规律。通过统计计量方法分析语言的 处理密切相关,其中最关键的是提取有用的文本特征, 结构特征,如名词、动词比例,可以实现文本聚类[6]。 常用的挖掘方法有文本分类、聚类、关联分析和趋势预 胡显耀通过统计学上的因子分析方法,对多个语言特 [1] [7] 测等 。随着统计算法的成熟和完善,文本挖掘技术 征进行了降维分析 。降维法也可用于翻译作品的 也得到更加广泛的应用。计算文本相似度是挖掘其它 研究,采用主成分分析法(PrincipleComponentAnaly 文本数据的关键和基础,越来越受到人们重视[2]。翻 sis,PCA)对词频进行了降维,并建立起研究译者翻译 [8] 译作品也是一种文本,通过对比翻译文本的相似度,可 风格的多维球体模型 。总之,翻译研究已经从传统 为翻译质量评估和译本对比提供重要的量化指标。 的主观研究,走向更加客观的基于数理统计的研究。 上世纪90年代以来,计算机科学和网络技术突飞 一、研究现状 猛进,应用日益广泛。然而,机器翻译的质量尚差强人 [9] 传统的翻译作品及翻译风格对比大多是直觉和内 意 。被动句具有重要的语法、语用和语篇衔接作 省式的定性研究,主观有余客观不足。随着语料库语 用。其语义关系与主动句顺序相反,逻辑关系和句法 言学的发展,可通过提取语言的计量特征来对比翻译 结构都较为复杂,对机器翻译是极大的挑战。因此,被 [10] 语言的特点,如标准形类比(STTR)、词汇密度、各种词 动句翻译也是机译中常见错误之一 。柏晓静和詹 类的比例等[3][4]。这些对比结果能够比较客观地反 卫东曾总结出不能对应翻译成汉语被动句的一些限

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档