硕士论文 主题可定制的web双语平行语料库自动获取技术研究.docVIP

硕士论文 主题可定制的web双语平行语料库自动获取技术研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
硕士论文 主题可定制的web双语平行语料库自动获取技术研究

分类号 TP3 密级 UDC 编号 硕士学位论文 主题可定制的web双语平行语料库自动获取技术研究 声 明 我声明本论文是我本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 作者签名: 日期: 摘 要 大规模双语平行语料库是构建高质量统计机器翻译系统的重要基础资源。在特定领域统计机器翻译应用中,使用与领域主题相关的平行语料作为训练数据能够获得好的翻译质量。本文提出了一种主题可定制的Web双语平行语料库自动获取方法,目的在于充分利用Web中大量存在的双语平行资源,从中获取满足用户特定领域和主题翻译需求的双语平行语料,以提高统计机器翻译系统的翻译质量。 具体来说,本文研究包括以下几方面内容: 1. 基于Web的双语平行语料库自动获取 在互联网上,平行网站的风格千差万别,基于URL命名相似性与基于网页结构相似性的平行句对获取方法在处理不同风格的平行网站时各有优劣,表现出适应能力的互补。本文深入研究了两种方法的特点,对现有技术进行改进,提出了一种基于标签序列最长公共子串的DOM树对齐改进算法。针对两种方法各自的优势,我们设计了融合两种获取方法的策略。实验证明,融合后的方法能够有效提高获取系统适应复杂网站情况的能力。 2. 主题可定制双语平行语料库自动获取 对于特定领域的机器翻译应用,使用领域主题相关的语料作为训练数据可以提高统计机器翻译系统的翻译质量。本文借鉴信息检索相关技术,研究并提出了领域主题相关的双语平行语料库自动获取方法,包括主题描述模型和主题相关数据检索方法。实验表明,利用本文提出的方法,用户可以方便地进行领域主题的定制,有效地实现特定领域主题双语语料库的检索;利用该方法检索得到的双语平行语料库来加强领域翻译模型的训练,可以有效地改善特定领域统计机器翻译系统的翻译质量。 3. 主题可定制的双语平行语料库自动获取系统设计与实现 在以上研究的基础上,搭建了一个主题可定制的Web双语平行语料库自动获取系统。该系统包括候选网站检索、平行网站识别、获取策略选择等9个功能模块。用户可以利用该系统方便地实现特定领域双语语料库的定制和检索。 关键词:双语平行语料库;网页挖掘;主题定制;统计机器翻译 Automatic Acquisition of Topic-oriented Parallel Corpus from Web Large-scale parallel corpora are essential resources in constructing high-performance statistical machine translation (SMT) systems. It has been proved that applying domain and topic relevant training data to domain-specific SMT systems can produce better results. This dissertation proposes a new method to customize and retrieve topic relevant data. Through this method, we aim to access appropriate data for domain-specific machine translation by making full use of parallel resources on the web. These data can be used to improve the performance of statistical translation systems. Specifically, the research results of the dissertation are summarized as follows: 1. Web-based parallel corpus acquisition Parallel websites have many diverse styles. URL-pattern-based and structure-pattern-based mining sche

文档评论(0)

pangzilva + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档