英语语料库翻译教学平台的设计的研究.docVIP

英语语料库翻译教学平台的设计的研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
英语语料库翻译教学平台的设计的研究

英语语料库翻译教学平台的设计的研究   语料库是由大量收集的书面语构成,并通过计算机储存和处理,用于语言学研究的文本库。本文提出的《中医英语语料库翻译教学平台》正是在这样的大背景下研发出来的。系统建立在《新编实用中医文库》、《英汉对照中医本科系列教材》和《中医药院校外国进修生教材》等经典中医文献全部语料的基础上,充分结合中医汉英双语语料的特点,应用计算机技术,实现了对中医语料的收集、筛选、分类、统计、检索、对齐显示等功能,为中医双语教学及中医语言研究提供了一个高效、准确、统一的研究参考平台。      一.语料库的构建   1.语料库的模型。构建具有统一标准和规范的大规模、多体裁、篇章级、段落级、句子级等多级对齐的面向双语教学和翻译的双语对齐语料库,我们用这个语料库为基于存储的引擎提供中医翻译实例,并从中挖掘学习各种细粒度翻译知识,供其他翻译引擎使用。此外,我们也希望该语料库在逐步趋向平衡后, 能够服务于中医中英双语词典编纂双语术语自动提取双语对比研究以及双语教学等其他研究领域,用户整理加工大量中医专业中英对照的真实语料,同时可以在投入使用后继续收集语料,建成一个大规模的双语平行语料库。构建双语平行语料库的核心任务是双语语料的加工和语料库的组织。为了更好地开展这两项工作,保证双语平行语料库的质量和规模,并且合理、有效地推进语料库建设,我们需要一个相对完整便于操作的语料库构建流程:语料收集→语料加工(人工预处理)→语料标准化→机器组织加工→语料入库。   2.语料的收集和整理。语料库建设是一项工作量极大的工作,因为一个有实际应用价值的双语语料库决不是任意文本的任意集合,其文本类型、大小以及语料的构成都必须根据应用需求,经过仔细设计,只有这样才能保证所投入的工作是值得的。我们所要建的双语语料库是一个专用语料库,面向中医专业教学辅助翻译系统的,同时可应用于中医教学、中医翻译、中医专业知识自学等领域, 由于这个语料库的直接应用目标中医专业教学翻译系统, 理想的语料应该是有关中医专业的语料。   3.语料的标注。本系统是面向中医专业教学辅助翻译系统的,同时可应用于中医教学、中医翻译、中医专业知识自学等领域,同时对语料的多种对齐方式显示给用户,系统必须能针对中英断句的习惯来对语料的句、段等不同单位进行标注,提供给用户简单明确的翻译结果。      二.语料库的结构   整个中医语料库实质就是由经过标准化的中英文文本文档组成,用相应数据库的文本格式数据表示,每个记录都由五个核心部分组成,其中有惟一标识该记录的编号标识、中文文本、英文文本、中文检索关键字或文本特征描述、英文关键字或英文文本特征描述以及提高检索速度的大量索引。   可选方案:a基于对语料库的检索速度的考虑,可以有比较成熟做法是基于不同主题建立索引,以多维度来对语料资料进行整理分析,并建立多维索引,提高查询速度;b.建立相应的示图等虚拟表结构,把大量的数据文件逻辑分离、查询优化工作预先做好,以缩短执行响应时间;c.建立存储过程等数据库系统高级工具来减少搜索引擎的指令编译时间;d.利用例如连接池等前端工具来减少数据文件重复加载时间。      三.前台应用系统   系统是面向教育教学,对中医语句进行有效的整理,并提供快速正确的检索功能,提供给用户方便快捷的中医语料查询翻译功能。系统通过对文本语料进行切分和标注等方法进行加工,把语料资料按照一定的系统标准存储入计算机内,并在用户的请求下,使用数据挖掘处理工具对数据进行操作、再整理、界面显示等,响应最终用户的请求。      四.主要功能:   1.语料检索。主要是出于对用户方便性的考虑,需要提供一种能够简便的用户检索接口。   2.数据信息提取。在用户正常的检索请求情况下能够遍历相关主题整个库文件,把相关的信息检索出来,而且要保证在系统允许的最低准确率之上和时间可以允许范围内。可以采用相应的算法来提高效率。   3.信息文本长度统计。这是文本对齐的必要准备,只有在长度统计准确的前提下才能准确无误地显示在用户的应用界面。   4.对齐显示。这是本系统在最终用户层的最重要的功能之一,必须提供篇章段落级对齐、句句对齐的要求,初步拟订对语料进行切片的方式,然后对不同的切片的长度进行计算,并选择两种语种最长的长度为标准(其中在计算机的内部汉字的长度是英语字的两倍),采取左对齐右端用空格的方式在最终结果按相应的对齐方式显示给最终用户。备选方案:a.采用查询结果同步扫描的方式,分别对两种语种的文本进行扫描,选长度大的作为标准,此方案的优点是:能能够灵活的处理查询结果,缺点是:处理速度慢。b.采用在语料数据入库时就按相应的对齐方式做好断句的分割。这种方案的优点是:检索程序能直接显示检索结果,检索速度快,如果能采

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档