中文学术专著的语句相似度计算.docVIP

  • 18
  • 0
  • 约 14页
  • 2017-09-04 发布于重庆
  • 举报
中文学术专著的语句相似度计算 摘 要: 关键词:学术专著 语句相似度 机器辅助翻译 一、引言 随着我国科研水平的提高以及国际合作与交流的加强,中文学术专著的“出口”需求日益增大。面向中文学术专著的机器辅助翻译将为这类工作量极大、质量要求极高的翻译任务提供一种实用的、人机交互式的解决方案。该方案侧重于:1)从计算的角度深入地考察专著的语言特点;2)用计算的方法有效地辅助专著的翻译。本课题将为现有的自然语言处理技术提供一个很好的应用场景;同时,机器辅助翻译研究也是迈向全自动高质量机器翻译这一最终目标的必经之路。 二、中文学术专著的语言特点 与普通论文比较 2.1 句长 本文对专著(见附录)中语句的长度进行了考察,图1为其中五部专著的句长分布情况。x轴表示各种句长,y轴表示不同长度的语句在专著全部语句中所占的比例。可以看出,专著中语句的长度一般在150字以下,以句长为10至150字的语句所占比例最大;此外,还有少量150字以上的超长句。   作为参照,本文同时考察了普通的短篇学术论文的句长。从不同长度的语句在全文中所占的比例来看,专著和普通学术论文并无太大差异,即普通论文的句长也基本满足图1的分布比例。但是,由于专著与普通论文在篇幅上存在极大的差异,用绝对值来衡量时,句长为10至150字的语句所占的比重会在专著中更为突出。此外,考察结果还显示,普通论文中出现150字以上超长句的概率极低

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档