语料库语言学答客问-中国知网.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语料库语言学答客问-中国知网

语料库语言学  2014年  第1卷  第1期 语料库语言学答客问 广东外语外贸大学  桂诗春 编者按 本期“学者聚焦”关注的是桂诗春教授。桂教授是我国外语界语料库语言学研究的先 行者之一。他同杨惠中教授主持创建的“中国英语学习者语料库”,极大地促进了我国英 语中介语的实证研究。桂先生年过耄耋,仍然紧跟语料库研究最新技术和方法。他79岁 高龄时出版了基于自建学术英语语料库的多维度英语语体研究专著。近期,他还自学R语 言,以用于英汉语语料的统计分析。 为能让更多年轻后学从桂先生身上汲取学术养分。本刊特于创刊号登载对桂先生的专 访,以飨读者。 1. 您最早是什么时候开始接触语料库的?您能描述一下当时国内语料 库研究开展的情况吗? 世界上第一个机读英语语料库(布朗语料库,Brown Corpus )建于20 世纪60 年代中 叶。当时我国正值“文革”,与国外隔绝,直到“文革”结束后,我才开始接触语料库 č Computational Analysis of Present-Day American 语言学。首先看到的是Ku era 和Francis 的 English ,那是100万词次的布朗语料库的文字描述版,不久又看到John Carroll 等人基 于500 万词次的Word Frequency Book,虽然两者都不是直接可用的电子化语料库。但最 早引起我兴趣的是心理语言学家John Carroll 为这两本语料库所写的《序言》,然后又看 到Gustav Herdan 所写的两本书:Type-Token Mathematics (1960 )和Quantitative Linguistics (1964 )。当时还没有语料库语言学的提法,但这两本书和Carroll 的《序言》,却给我打下 了语料库的理论和数学基础,开始认识到通过语料库调查进行语言研究的重要意义。上 海交通大学杨惠中、黄人杰等人的团队,也差不多在这一阶段认识到语料库的前景,并 开始在我国建立自己的语料库;他们收集并创建了JDEST (Jiao Da English for Science and Technology )语料库,并基于该语料库来编制科技英语常用词表。其间我也访问过他们, 并在现场看过他们的成果。但是布朗语料库也好,JDEST 语料库也好,当时都是依托大型 计算机来完成的。而我所在的单位并没有计算机,于是就向上级申请购买一台Apple II 型 的微型计算机。教育部门领导最初的反应是:你们又不是工科院系,要什么计算机?经过 我们努力说明和争取,最后购进了3 台,分给几个部属外语学院(北外、上外和广外)。 当时的计算机技术远没有现在发达,中央处理器和内存都较低级,外部储存手段只有 5 英寸软盘,光学扫描仪还没有问世。1985年,我招了一个硕士生祝启波,他原在石油大 学广州分院教英语,也上过计算机课,于是我们就开始在一个IBM PC/XT 计算机平台上, 开发石油英语语料库GPEC (Guangzhou Petroleum English Corpus )。祝走访了我国石油系 统的几个院系,根据石油探测、石油提炼和石油探钻三大类进行采样和人工输入文本,而 1 语料库语言学答客问 且在一台微机上,进行文件的组合、整理和运算,终于建立了一个40 万词次的石油英语 语料库。这个语料库最后以《石油英语频率词典》(1991 )的名义发表,使用的是Carroll 的Word Frequency Book 的几个统计量(U 、SFI、D 和F )。我在为该书所写的《序言》里 不得不说:The build-up of corpora requires a Brobdingnagian effort ,(Brobdingnag 是《格里 佛游记》里的“大人国”),这个研究的成果不但是一个石油英语语料库,而且还建立了一 个在多数人都能拥有的廉价计算机上建立专门用途语料库的模型。Leech (1997:18 )在回 顾“专门用途语料库”时说过,“这些语料库通过不同手段在逐步增加,首先是敏锐的专 门用途语言学家和教师开发自己的语料库,早期的例子是JDEST 和GPEC ,两者都来自中 国。”Leech 所不知道的是GPEC 是在技术条件那么差的情况下完成的。 至于和语料库有关的软件,最早接触到的是加拿大多伦多大

文档评论(0)

wumanduo11 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档