基于自建语料库矿业文本特征分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于自建语料库矿业文本特征分析

基于自建语料库矿业文本特征分析   摘 要:在中国矿业积极学习借鉴西方国家先进矿业技术的背景下,矿业文本的翻译变得越发重要。但目前该领域翻译人才缺乏,相关翻译活动有一定难度,故本文以Maptek公司矿业相关文本作为语料自建语料库,从词频、词汇密度、平均词长、平均句长四个方面对矿业文本的特征进行分析,以期为矿业领域的翻译实践提供些许建议。   关键词:语料库;矿业;文本分析;翻译实践   1引言   近年来,随着中国工业化、城镇化进程不断加快,经济高速发展带动了矿产资源需求的高速增长,中国矿业展示出了前所未有的发展势头,2003―2011年,我国矿业产值从7357亿元增长到了5.86万亿元,增长了7倍,年均增长率为29.6%,但相较于西方发?_国家,我国矿业发展仍处于一个初始阶段,距资本―技术密集型相差很远。鉴于此,对西方发达国家矿业领域的文本进行翻译,有助于学习和借鉴其先进的采矿技术和工艺,促进中国矿业不断发展。但由于多种原因,目前国内该领域翻译人才欠缺,矿业文本翻译相关研究不足。   2介绍   当译者着手翻译一篇文章时,对文本的分析无疑是第一步。文本分析对于翻译而言就如同台阶的第一步,万丈高楼的基石。文本分析对译者透彻理解原文、制定翻译策略起着至关重要的作用。谈及文本分析的方法,德国功能学派理论学家诺德所提出的文本分析模式(以下简称“诺德”模式)无疑占据了很重要的位置。诺德认为文本分析应该从语言和非语言两方面因素进行,即文本内因素和文本外因素,文本外因素包含文本发送者、发送者意图、文本接受者、媒介等,文本内因素则涉及篇章结构安排、词汇层面、句子结构、超音段特征等方面。诺德模式无疑为文本特征分析提供了方向和角度,但其缺陷在于没有提供分析文本内外因素的具体方式和衡量标准,比如分析词汇层面的特定术语,该如何分析,有怎样的指标,都没有涉及,因而运用诺德模式进行文本分析会不好衡量和把握。但语料库手段的引入无疑为进行客观的文本特征分析,尤其是文本内因素的分析提供了一个很好的途径。   3自建语料库   当前,基于语料库的翻译研究不断增多,所建语料库类型也是种类繁多,内容日趋完善,但仍缺乏针对矿业文本专门建立的语料库。自建语料库大小比较灵活,可根据需要自行确定,但通常适用于没有现成语料库,现有语料库不适用或不能满足研究需求,需要对比语料库以及需要特殊语料的情况。鉴于目前没有直接可用的矿业文本语料库,探寻矿业文本的文本特征以服务该领域翻译实践的需求又越发凸显,故而本文作者专门建立了一个小型矿业文本语料库,在此基础上对矿业文本特征进行分析。   3.1语料搜集   Maptek公司是澳大利亚一家全球领先的矿业创新软件、硬件以及技术服务供应商,本次自建语料库所使用的语料是Maptek公司Vulcan软件和I-Site软件应用于采矿作业的案例,内容涵盖整个采矿流程,涉及地质勘探、品位控制、矿山优化以及地质建模等方面,语料字数总计为105,430字。   3.2语料整理   语料整理对于自建语料库而言十分关键,会直接影响语料的处理速度和结果。语料文本如不加以清理会导致词汇分析、统计不准确,词性赋码出错或分析无法进行。此外,大多数语料库软件只能识别纯文本类型的文件,不能识别其他编码格式的文本,一些特殊格式标识符号在读取中会出现乱码,因而影响处理结果。在语料整理过程中,为确保语料库统计高效且准确,预先使用了文本整理编辑器对文本进行了清理,删去了多余空行、段首尾空格、全角空格,统一了中英文标点符号和文字格式,并保存成了纯文本格式。   4矿业文本特征分析   利用Wordsmith和Concordance语料库软件从词频、词汇密度、平均词长、平均句长四个方面对语料进行分析。考虑到语料来自于一家澳大利亚公司,因而选取了BNC(British National Corpus)语料库以及FLOB(Freiburg-LOB Corpus of British English)语料库作为参照语料库,进行矿业文本特征对比分析。   4.1词频   词频可以反映某类型文本或某个作品中的用词倾向,进而反映出文本的特征。在Concordance软件中,去除功能词后根据词频从高到低排序,前20位词语分别是:data,Vulcan,mine,model,I-Site,Maptek,coal,mining,modelling,block,project,pit,grade,planning,3D,ore,laser,time,design,scanner,其中“Maptek”,“Vulcan”,“I-Site”三个词代表的是该语料所涉及的产品名称,本文不予考虑。通常词表中排在前面的高频词是功能词,或者说是表达语法意义的虚词,接着是较抽象、概括

文档评论(0)

130****9768 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档