- 1、本文档共98页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
翻译的语料库语言
语料库与翻译研究 Presented by Chenli 语料库与翻译研究 简单地说,。 研究方法介绍 什么是语料库? 语料库是一个有大量在真实情况下使用的语言信息集成的、可供计算机检索的、专门做研究使用的巨型资料库。它以其容量大、语料真实、检索快捷准确等独特的优势在现代语言学研究和语言教育中正发挥着越来越重要的作用。(何安平2004: 1)。女 华南师范大学教授,博士生导师 语料库和语料库语言学是二十世纪五十年代后期发展起来的新兴研究方法,被称为结构主义语言学派与功能主义语言学派/两阵对垒的天平上的一个举足轻重的砝码。(顾曰国1998:1)。北京外国语大学教授、博士生导师 语料库的定义 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。 语料库的类型 语料库有多种类型: a、依据它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式: (1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料; (2)同质的(Homogeneous):只收集同一类内容的语料; (3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实; (4)专用的(Specialized):只收集用于某一特定用途的语料。 语料库的类型 b、按照语料的语种:单语的、双语的和多语。 双语和多语语料库按照语料的组织形式,还可以分为:平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。 c、按照语料的采集单位:语篇的、语句的、短语的。 语料库的特征 语料库有三点特征: ⒈语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此 例句库通常不应算作语料库; ⒉语料库是承载语言知识的基础资源,但并不等于语言知识; ⒊真实语料需要经过加工(分析和处理),才能成为有用的资源。 语料库创建 (1) 设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。 (2) 语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。 (3) 语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。 (4) 语料管理系统的建设:包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、用户功能(查询、检索、统计、打印等)。 5) 语料库的应用:针对语言学理论和应用领域中的各种问题,研究和开发处理语料的算法和软件工具。 语料库出现以后,人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。从字符编码、文本输入和整理,语料的自动分词和标注,到语料的统计和检索,自然语言信息处理的研究都为语料的加工提供了关键性的技术。 语料库的创建 语料库发展 语料库方法在中国的发展 我国语料库的建设始于80年代,当时的主要目标是汉语词汇统计研究。 进入90年代以后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立了各种类型的语料库,研究的内容涉及语料库建设中的各个问题。 90年代末到20世纪初这几年是语料库开发和应用的进一步发展时期,除了语言信息处理和言语工程领域以外,语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。 20世纪初到现在,语料库方法已经广泛应用于很多领域,例如翻译研究领域。 语料库方法的研究趋势 语料库语言学(corpus linguistics) 语料库语言学是基于语言运用的实例(即语料库)的语言研究。语料库语言学可以对自然语言进行语法与句法分析,还可以研究它与其他语言的关系。 别的语言学科基本上都是研究有关领域与语言之间的关系,例如,社会语言学研究的是社会与语言的关系,心理语言学研究的是人
文档评论(0)