关于语料库应用于双语词典编纂几点思考.docVIP

关于语料库应用于双语词典编纂几点思考.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关于语料库应用于双语词典编纂几点思考

关于语料库应用于双语词典编纂几点思考   摘要在双语词典编纂方面,语料库受到国内外学者的普遍关注,但在词典编纂过程中语料库也暴露出一些问题。本文就语料库的代表性、语料库配例的科学性和“泡沫”高频词三个问题进行了论述。   关键词双语词典语料库代表性配例“泡沫”高频词      语料库的应用作为一种新方法,近来在词典编纂和研究领域受到了越来越广泛的认可和重视。Bejoint说:“对词典学来说,应用语料库是一种科学的方法,它的使用可以对语言使用进行客观的描述。”[1]但是,语料库也像一柄双刃剑,如使用不当,不仅劳而无功,而且还会在“科学、客观”的外衣下产生许多谬误。本文针对在词典编纂方面语料库可能导致的错误作粗浅论述。      一、语料库本身的代表性      语料库是否具有代表性,要看语料库的选材是否客观、科学,是否遵循了科学的抽样原则。Biber认为,代表性问题是选材的最基本问题,所选材料应该“囊括所研究对象的所有变量”[2]。如果选材不具代表性,在此基础上所进行的研究在科学性方面必然会受到很大影响。   在语料库的建设中,我们不仅要重视库容量(即收词数量的多少),更要关注语料库的代表性。为了让语料库能真实地反映语言使用情况,具有代表性,以下几点不容忽视:      1.内部结构分析   语料库的内部结构分析应该在建库之前进行。目前已有不少成功的、被广泛认可的语料库,我们在建设自己的语料库时可以参考它们的经验。   在单语语料库的建设中,Halliday的语域(register)理论及分析方法受到一些学者的倡导。BNC(British National Corpus)的内部结构分类虽然略有不同,但与上述方法并无本质区别。BNC对书面语料的分类要考虑三个参数,即主题类别(subject area)、载体(medium)和时间(time)。语料首先按主题分为信息型(informative)和想象型(imaginative)两类,然后再根据学科类别进行细分。例如,信息型被细分为纯自然科学、应用科学、社会、时事、艺术、思想和休闲等子类别。载体和时间分别界定语料的来源(比如书籍或期刊等)和出版时间。我国学者认为,语料库如同一个“四维模型”,应由“时间轴”、“空间轴”、“学科轴”和“风格轴”组成。[3]      2.语料库的大小   语料库到底要多大才能反映语言的实际使用情况呢?长期以来,这一直是语言学家们思考的问题之一。对于第一代通用语料库而言,100万词级的语料库就已经很大了。但随着计算机技术的发展,语料库也愈建愈大,BNC是1亿词级的,而BOE(Bank of English)更达到了2亿。规模庞大的语料库虽有其优势,但语言学家们同时也意识到,语料库并不是愈大愈好,语料库过大可能会造成对检索的结果难以或无法进行分析。Kennedy认为:规模宏大的语料库并不比规模较小的语料库更能揭示语言的本质。通用语料库既然如此,专门语料库就更不用说了。如果要建一个用于研究韵律的语料库,10万词级的就足够了。[4]   目前,语料库愈大愈好的观点受到越来越多人的挑战。因为语料库不论有多大,相对于浩瀚的语言之海来说都是“沧海一粟”。所以,人们开始探索如何建立易操纵的、能反映研究对象一般规律的较小型语料库。实际上,语料库的大小要根据研究目的而定。一个较小型的、认真设计和规划的语料库,若可以被透彻地分析研究,其作用并不亚于大型的语料库。笔者认为,初始阶段的语料库建设不应该求大求全,因为还有许多理论问题需要解决,盲目建大库有可能会造成人力、物力的大量浪费。我们可以先选择语料的某个方面(比如“报刊语料”)为突破口,根据科学的抽样统计原则搭建一个“核心语料库”。在条件成熟之后,再着手进行语料库的扩展。对用于双语词典编纂的语料库来说,建设的起点应该是双语平行语料库。在平行语料库的建设中,如果能做到在从源语到目的语的转译过程中保持“一对多”(一篇原文对应多篇不同版本的译文),这样的语料库对双语词典编纂将会具有很高的实用和研究价值。      二、关于配例的科学性      例证是词典的核心组成部分之一,对学习型词典来说,它的作用不亚于释义。词典编纂人员在配例时通常有两种做法:自造用例或从出版物中选择现成的句子。   自造用例的做法受到了许多学者的批评,主要原因是这违背了Fox所倡导的真实性原则????[5]。自造例通常有的具体弊端是:其一,为了说明某个义项而造句会有斧凿或拼凑的痕迹;其二,由于编纂人员的知识面所限,所造例句会倾向其本人熟悉的学科领域,有过偏之嫌。[6]国内发行量颇大、影响颇为广泛的《新英汉词典》,所收例句基本上都是编者自造的。例如:   Have you finished with the dict

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档