中日双语平行语料库之日语科技语标注技术.docVIP

中日双语平行语料库之日语科技语标注技术.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中日双语平行语料库之日语科技语标注技术.doc

中日双语平行语料库之日语科技语标注技术   摘 要:中日双语平行语料库由中文和日文两种语言组成,在研发阶段,我们主要从语言学角度对这两种语言进行对比和分析。无论是从语言形态还是整篇文章的结构来看,中日文都有着共同的特性。在计算机数据处理时,只有对两种语言同时进行标注,才能达到互译的效果。目前,大多数语料库采用数据库处理和文本处理相结合的组织模式,采用XML(Extend Marking Language)标记语言。现如今双语平行语料库最流行的项目是应用于XML的语义标注技术,该标记语言的优点在于语料处理比较直观,基本和实际的文章相似,弥补了同类标注技术的不足。   关键词:科技日语;标注技术;XML;中日双语   一、科技语的定义及表现形式   科技实际内容的另一种表现形式是科技语文章。科技文献存在的前提是科技语言的掌握。语言学给出这样的结论,科技日语是以日语为根基,传递的是科技方面的思想内容,是日语中必不可少的一部分。科技日语语体描述的主体是现实生活中客观存在的事实,这就是自身最大的特点,由于这个原因使其在表现手段、逻辑思维等方面有鲜明的特色。换句话说,科技日语语体在遣词造句等方面有其自身的特点。只有充分地掌握这些特点,才能正确理解科技日语文章。   语言是思维的外在表现形式,思维有赖于语言,尤其有赖于文章的准确性体现思维的明晰性,文章的层次性体现思维的条理性,文章的周密性体现思维的逻辑性阅读过程中的判断推理、分析综合、类比想象、欣赏评价,都离不开思维。换言之,文章阅读的过程,就是整理思维的过程而阅读科技语体的文章,不仅是一个语义辨认、语法分析的过程,同时也是读者运用相关学科的知识和经验对写作者所传递的新理论,新信息,新资料进行判断、推理、分析、综合的复杂逻辑思维过程。因此,在阅读整理科技日语语体的文献时,除了掌握科技日语的基本语言特点,具有较高水平的语言分析能力外,还必须了解有关学科的基本知识和较强的逻辑思维能力,才能把握原文的精神实质,用恰当的概念去判断原文。   二、中日双语科技语标注技术   (一)中日双语日语科技语标注技术采用的主要方法。目前,大多数语料库采用数据库处理和文本处理相结合的组织模式,采用XML(Extend Marking Language)标记语言。该标记语言的优点在于语料处理比较直观,基本和实际的文章相似。此种标记语言需要高配置、高性能的硬件设施,但是对于数据的处理能力较低,所以很难完成多用户的共同处理任务。相对于其他的标记语言,该技术的功能较繁琐,数据库的管理和安全性的维护都很难能实现。由此得出该种标注技术只适用于数据量较小,双语语料库。但是,到目前为止还没有研究出比XML标记语言更便利的标记语言,因此,市场依旧采用XML语言,在此基础上研发出了多用户并发操作模式,即群组分布式操作模式,以达到扬长避短的目的。   群组分布式操作模式,通过市场热门的数据库应用软件,分解文本数据,并将其存储在一个公共数据库中,主机之外的计算机只能为客户机的身份操作数据库。分布式计算机系统是由广域网或局域网相互连接,可以在数台计算机上同时运行程序的不同部分。通过B/S(Browser/Server,浏览器/服务器)或C/S(Client/Server,客户端/服务器)结构,不仅能将语料数据有效的存储和完成复杂的检索,而且能实现了多用户的群组操作,达到了事半功倍的效果。   中日双语语料库的建设系统和使用系统是由数台相互联网的计算机组成,将一台计算机放在中心的位置,充当服务器,剩下的计算机只有通过局域网访问服务器才能获得需要加工的数据。以此让语言翻译有关的研究人员都能操作数据库。群组分布式操作模式像网一样将用户、创建人员、研究人员等与服务器相连,从而操作翻译语料库。   (二)中日双语科技语标注技术遇到的主要问题。(1)语言学理论上的问题。首先,中日双语科技语标注技术缺乏统一的文法理论基础。从自然语言处理实践来看,还没有哪一种语言学流派成为一种理想的理论基础,因此建立中日双语科技语标注技术就面临着缺乏语言学理论基础。这样,一方面是缺乏一个统一的语言理论来指导建立中日双语科技语标注技术,从而造成中日标注分别建立在两个不同的语法体系的现象;另一方面,一旦选定某种文法理论来设定标注技术,那么要引入另一个文法进行某些研究时,就会造成标注技术的冲突和冗余,其结果就是双语标注技术的标准性无从谈起。其次,中日双语科技语标注技术面临着描述双语现象的难题,这一点在语言学中也是一个有待深入研究的问题。双向机器翻译系统的下一步工作是:利用等值翻译理论,建立等值翻译表达式,从而实现双向机器翻译系统的知识级的共享。但是这一方案在实践上还有很多问题有待克服,其中之一就是如何进行双语的描述问题:不仅需要分别充分描述汉语和

文档评论(0)

ganpeid + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档