- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
论小规模语料库构建
论小规模语料库的构建
摘 要: 本文介绍了小型语料库的构建步骤和具体在教学中的应用,并介绍了一些语料库构建的工具和软件。结合实际,对个人语料库建设提出了一些意见。
关键词: 小型语料库 英语教学 模式构建
一、引言
语料库语言学(corpus linguistics)是20世纪中后期兴起的一门语言学研究领域。语料库语言学是指专门对大规模储存于计算机里的语料库进行研究的学问。语料库是一个由大量在真实情况下使用的语言信息集成的、可供计算机检索的、专门作研究使用的巨型资料库。它以其容量大、语料真实、检索快捷准确等独特的优势在现代语言学研究和语言教育汇中发挥着越来越重要的作用(何安平,2004)。随着计算机技术的高速发展,语料库语言学也随之成为现代语言学的一个最重要的分支。目前语料库已经广泛地应用在语言学研究的诸多方面,如词典编撰、教材编写、语言教学、语言本质研究、文学研究、翻译比较等。通常这些研究都是比较大型的语料库或是少数研究者进行研究的工具,对英语教学的意义不大。一些大规模的语料库针在条件有限的情况下很难获得,费用很高。而且大多数通用语料库的建设目的是为了语言现象调查研究或是词典等的编撰,对于英语普通学习者来说不是很适用。另外,由于大型语料库讲求平衡语料库选取语料,在教学方面不如临时自建的小型语料库更有针对性。所以在英语教学当中,建设小型的学习者语料库是十分必要和有成效的。笔者根据个人建库的实例从构建小型语料库的可实施性,以及小型语料库的构建方法等方面作具体论述。
二、小型语料库的构建
建立小型语料库首先需要明确一些问题和因素。Graeme(2000)指出建立语料库要考虑的因素有建库的目的、语料品种、取样标准、规模、代表性、设备、存贮方式与格式等。笔者认为这些因素当中建库的目的尤为重要。这一点Sinclair在他的《语料库、索引与搭配》也指出,语料库的构建,他首先考虑的是建库的目的。
通常人们认为构建语料库是一项很费事费力的工程,甚至认为它很神秘,其实构建个人的小型语料库是很可行的。对于教师来说,完全可以自己构建一个教学语料库,用来指导教学???作。例如学生写作的语料库。
(一)语料的选择与分类
为了保证语料的真实性,语料可以从网上或是光盘获取,也可以自己收集学生的资料。网上语料丰富,本身就是一个巨大的语料库。可以运用各种搜索引擎,例如百度、Google、Yahoo等。也可以运用一些数字图书馆、电子图书来收集你想要的资料。收集的语料也不是简单的堆砌,必须根据一定的原则来分类。笔者收集的语料库是英语专业学生的口语语料库。语料来自于日常对学生的口语测试,通过录音的形式获得最原始的材料,所以笔者的语料属于口语语料。口语语料库构建的工作量很大。首先是话题的选择,笔者共选择十个方面一百个话题进行口语测试,耗时半年的时间。之后的工作是对原始语料进行转写以便获得纯文本。转写遵循的是真实原则、完整原则和准确原则。之后的分类再以语域为主,来源时间兼顾的原则进行细分。分类后的语料文件名也要保持统一,并尽可能地体现分类信息。比如笔者对关于教育类的语料统一命名为“education+time+来源”,这样便于查找。
(二)语料标注
语料整理好之后要对其进行标注。把语料的有用信息用符号一一标注出来,以便用检索软件进行查找。标注有很多类型,主要是词性标注、句法标注及对篇章的具体信息进行创造性的标注。笔者主要运用的是词性标注。笔者着重介绍词性标注的工具及方法。
常用的词性标注软件是CLAWS,他的准确率很高,达到99%。我们比较熟悉的BNC就是用CLAWS标注的,但是此软件是付费的。对于英语教师来说,有一些免费又准确率很高的软件可以选择。GoTagger就是很好的一款软件,他是Goto Kazuaki(日本)所开发的一款简便的词性赋码软件,以Delphi写成,所以不需要ActiveX或Dll文件而可以直接在Windows上运行。我们可以在http://uluru.lang.osaka-u.ac.jp/~k-goto/use_gotagger_e.html网站上获得此软件。GoTagger不兼容中文,所以电脑中的文件夹以英文来命名会方便查找。经过赋码的文件会自动保存。GoTagger的优点是可以批量处理文件,将我们需要的大量文件一次性处理。
语料经过收集分类和赋码之后存储在文件夹下,小型语料库的构建就基本上完成了。这些工作看似简单,却需要花费大量的人力和精力。建好的语料库就可以进行索引了。在这里介绍些比较好的检索软件,例如Wordsmith,Sara,AntConc, Concordance等。比如Concordance从最初的语料获取到检索都很方便。它使用的是Window
您可能关注的文档
最近下载
- 《城市社区居家适老化改造技术标准》.pdf VIP
- 《深度访谈专题》课件.ppt VIP
- 体育赛事大型马拉松活动品牌推广赞助方案【体育赛事】【品牌推广】【ppt策划活动方案】.pptx VIP
- 风电进场道路清障施工方案.docx VIP
- 7《植物和我们》(课件)2025科学三年级上册粤教粤科版.ppt
- 《临床静脉导管维护操作专家共识》解读PPT.pptx VIP
- 西江月.夜行黄沙道中课件.ppt VIP
- 2024-2025学年天津市河东区七年级(上)第一次月考数学试卷+答案解析.pdf VIP
- 2020 KDOQI 慢性肾脏病临床实践营养指南.docx VIP
- 《成本会计学》实训资料(中国人民大学出版社版)参考答案.pdf VIP
文档评论(0)