- 1、本文档共65页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于web的大规模双语平行语料库自动获取技术研究与系统实现o8uel17k
II
硕士学位论文
基于Web的大规模双语平行语料库
自动获取技术研究与系统实现
申请学位级别 工学硕士 学科专业名称 计算机应用技术
论文提交日期 论文答辩日期
培养单位 中国科学院计算技术研究所
学位授予单位 中国科学院研究生院
答辩委员会主席
声 明
我声明本论文是我本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
论文版权使用授权书
本人授权中国科学院计算技术研究所可以保留并向国家有关部门或机构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编本论文。
(保密论文在解密后适用本授权书。)
城市机动车视频标注平台的研究与实现
摘 要
大规模双语语料库的建设与获取存在着很大的困难,虽然各国都投入了大量的人力、物力和财力来加强双语语料库的建设,但现有双语语料库在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。这也间接导致了目前的统计机器翻译系统仍然主要处于实验室开发研究阶段,离实际的应用还有一定的距离。本文致力于构建一个基于Web的大规模双语平行语料库自动获取平台。取得主要成果有以下几方面:
研究了双语平行资源在互联网上的存在形式并探索了相应的获取方法
互联网上虽然存在着海量的多语言文本资源,但任何系统都无法将所有的互联网文本进行处理,从而获取所需的特定双语平行的语料库。因此需要定义一种启发式信息来概括这类多语种平行文本存在的共同特征,以此作为一个有效的入口,来获取我们关心的Web资源。以往的系统都致力从一些双语网站中获取互为翻译的双语网页对。但是通过观察,我们发现在Web上双语平行资源不仅存在于两个平行的单语网页中,还存在于双语对照的同一网页中。本文对这两种资源都定义了有效的启发式信息,从而很好地解决了大规模数据的来源问题。
提出了基于URL命名相似性的双语候选网页获取算法
网络作者在进行双语平行网页URL命名时往往具有一定的规律性,两个URL之间一般只有与语种相关的部分字符串不相同。以往的系统在这个环节需要预先定义在URL命名中常见的与特定语种相关的前后缀表。本文提出了一种可以自动发现一个具有命名规律性的双语网站中双语平行网页之间命名规律的方法,不再依赖预定义。实验表明,本文的方法不仅可以发现所有常见的URL命名规律,而且还可以找出不同的网页编辑者带个人特色的URL命名规律,从而可以找出尽可能多的可信的中英候选网页对。综合各方面的评估与评价,该方法可以充分挖掘出具有命名相似性的双语网站中存在的双语平行网页,初步解决了双语语料库的获取难题,达到了本文预期的目的。
改进了双语平行句对抽取技术
双语平行的网页文本不同于一般的双语对照文本,其中不仅存在有用的双语对照信息,还存在一定的无关信息;此外,网页文本中的词汇量也大大超出任何一本双语词典的范围。这些都造成了对双语平行网页进行句子对齐的难度。以往的系统在这方面研究都是利用双语平行网页在其HTML结构上的相似性,但是很少双语平行网页在HTML结构上是完全一致的,其中的噪声很大。因此,得到的双语平行句对的质量也不尽理想。本文提出了一种双语平行句对的抽取技术,不仅可以利用双语平行网页HTML结构相似性这一优点,而且可以牢牢把握住双语平行句对互为翻译这一本质特征,从而取得到了很好的效果。
最后,我们实现了上述三个方面的技术,搭建了一个可以持续获取大规模的双语平行语料库的平台。
关键词: 双语平行语料库,网页挖掘,双语平行句对,统计机器翻译
The Research and System Implementation of Automatic Acquisition of Large-scale Bilingual Parallel Corpus from Web
Ye Shani
Directed By LIU Qun
There are great difficulties in accessing and building large-scale bilingual parallel corpus. Although a lot of manpower, material and financial resources have been s
您可能关注的文档
- 城市污水处理厂恶臭气体治理的工程设计urkyzelr.doc
- 城市棚户区改造工程项目可行性研究报告4zck_awy.doc
- 城市物流及其对区域经济发展的影响研究——以昆明市为例py8vagcs.doc
- 城市物联网技术研究院在北京正式成立yjyi1prg.ppt
- 城市污水处理厂课程设计任务书ygzhrj86.doc
- 城市机动车污染控制6giw0nsb.ppt
- 城市美化运动的措施及影响qnaonfnn.doc
- 城市社会学第2阶段测试题2ago5zfg_p.doc
- 城市快速轨道工程合同段招标文件_cvytd5q.doc
- 城市社区应急避难场所建设标准jeenwh8w.doc
- 人教新目标版英语九年级 中考模拟学情评估(三)(含答案).pdf
- 上海市风华中学2024-2025学年高三上学期9月阶段测试英语试题(无答案).pdf
- 统编版2024-2025学年语文六年级上册期末检测卷(有答案).pdf
- 人教新目标版英语九年级第二学期全册学情评估(含答案).pdf
- 内蒙古自治区巴彦淖尔市杭锦后旗第六中学2024-2025学年八年级上学期阶段性测试历史试题(解析版).pdf
- 湖南省娄底市涟源市部分学校2024-2025学年高一上学期9月月考语文试题 Word版无答案.pdf
- 湖南省衡阳市常宁市2023-2024学年七年级上学期期末考试英语试题.pdf
- 湖南省娄底市涟源市部分学校2024-2025学年高一上学期9月月考语文试题 Word版含解析.pdf
- 江苏省泰州市姜堰区城西实验学校2024-2025学年部编版九年级上学期月考历史试卷(原卷版).pdf
- 内蒙古伊金霍洛旗2022-2023学年七年级上学期期末考试英语试题.pdf
最近下载
- 老年人误吸的预防护理课件.pptx
- 初中历史八年级下课件:第4课新中国工业化的起步和人民代表大会制度的确立.pptx
- 私募股权投资基金运作与管理-配套课件.ppt
- 2022小学体育新课标试卷及答案(共二套).doc VIP
- 4、新中国工业化的起步和人民代表大会制度的确立.docx VIP
- GB T 23776-2018_茶叶感官审评方法_高清版_可检索.pdf
- 中国民间故事阅读交流课教学设计.docx VIP
- 体量与力量——雕塑的美感 课件-2023-2024学年高中美术人美版(2019)美术鉴赏.pptx VIP
- 2022年牛津英语上海中考常考高频同义词组转换(含习题).docx
- 市场调查报告(模板).xls VIP
文档评论(0)