开题报告_程晓龙.docxVIP

下载本文档

6
0
约1.17万字
约 11页
2015-11-20 发布于江苏
举报
版权申诉

开题报告_程晓龙.docx

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

开题报告_程晓龙.docx

毕业设计（论文）开题报告设计（论文）题目: 院系名称: 黑龙江工程学院计算机科学与技术系专业班级: 软件07-1班学生姓名: 程晓龙导师姓名: 齐浩亮开题时间: 2010.3.15 指导委员会审查意见：签字：年月日开题报告撰写要求一、“开题报告”参考提纲 1. 课题研究目的和意义； 2. 文献综述（课题研究现状及分析）； 3. 基本内容、拟解决的主要问题； 4. 技术路线或研究方法； 5. 进度安排； 6. 主要参考文献。二、“开题报告”撰写规范请参照《黑龙江工程学院本科生毕业设计说明书及毕业论文撰写规范》要求。字数应在4000字以上，文字要精练通顺，条理分明，文字图表要工整清楚。课题研究目的和意义：随着各国间政治、经济、文化等方面的交流愈来愈频繁、紧密，对世界各国语言间自动翻译需求变得日趋紧迫。随之而来，对于机器翻译的研究也进入了空前高涨的时期，尤其是近些年兴起的统计机器翻译，吸引着世界各国研究者的目光。而目前的统计机器翻译的发展，由于其对大规模平行语料库的依赖，还主要集中在平行语料库相对容易获得的英法（Canadian Hansards），英汉等语言之间。而且就目前来说，平行语料库的获取途径有很大的限制，主要集中在国际上大型会议的会议记录（例如United Nations proceedings），宗教文本，以及软件本地化的说明文档等。专业领域的双语语料是很多，但是平行的双语语料确实少之又少，因为大量的专业性的双语语料都是段对齐，很少有句对齐。有句对齐的双语语料，对齐的效果也不是很好，这就对机器翻译的研究造成很大障碍。想解决科技性双语句对齐，就必须先解决双语未登录词的问题。未登录词作为特定专业领域中的一般概念词语，有着很强的专业性。未登录词传递了专业文献尤其是技术文献中复杂领域的知识，对翻译质量和翻译效益有着举足轻重的影响。它集中地体现和承载了一个学科领域的核心知识，在一定程度上术语的变化反映了一个学科领域的发展变化。1998年的计算语言学国际会议COLING-ACL’98上，组织了第一次计算术语学的讨论会（First Workshop on Computational Terminology）。这次讨论会首次使用了“计算术语学”（Computational Terminology）这个学科名称。之后，未登录词的研究成为信息处理中的一个很重要的课题。双语未登录词对信息检索、信息抽取、数据挖掘、机器翻译、建立领域概念体系等自然语言处理课题的研究，以及摄入了解和把握一个学科领域的发展现状、未来趋向等具有重要的理论和现实意义。如果不及时分析、理解并解释这些未登录词，将势必影响到科学技术信息在大众中的理解和传播，将信息获取带来不便，同时也会成为中国与国际学术接轨的障碍；另一方面，在信息爆炸的今天，传统的手工方式翻译未登录词已远远不能满足中英文互译的实际需求。利用计算机和WEB等先进的信息技术手段成为双语未登录词英汉平行语料句对齐的一个必然趋势。如何高效的解决含有专业未登录词英汉平行语料句对齐是本文研究的重点。文献综述 2.1专业性双语平行语料库获取的基本理论及其研究现状 2.1.1双语平行语料库获取的基本模型一般所提取的方法就是在融合现有技术的前提下，从启发式信息出发，挖掘有用的Web资源，进行解析与过滤，抽取所关注的双语平行资源。为建立一个自动的、可持续的大规模双语平行语料挖掘系统(PPSM, the Platform of Parallel Sentences Mining)。根据双语平行语料的存在形式可将Web资源分为两大类即中英平行文本分别存在于两个中英平行的网页中和同一页面内的情形，分别称与之为网页间平行资源与网页内部平行资源。以往的系统都致力于从这类Web资源中挖掘双语平行资源，已有了一套切实可行的流程，具体步骤如下所述：根据锚文本信息，通过搜索引擎获取可能含有双语对照网页的网站，称为“双语候选网站”。采集双语候选网站中的所有网页。对每个双语候选网站中的所有网页进行一系列的预处理去噪声并进行网页解析处理。根据双语平行网页在URL命名时往往具有一定的相似性这一特征，来获取可能互为翻译的双语网页对，称为“双语候选网页”。双语候选网页经过过滤器，滤除伪平行的双语网页对，得到真正平行的双语网页对，称为“双语平行网页”，至此也得到“文本级双语平行语料库”。从双语平行网页中得到其中互为翻译的双语句对，称为“双语平行句对”