网站大量收购闲置独家精品文档,联系QQ:2885784924

基于校园网的笔语语料库建设探索.docVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于校园网的笔语语料库建设探索.doc

基于校园网的笔语语料库建设探索   【摘 要】基于校园网构建二语学习者的笔语语料库对于研究其语言发展规律具有很高的应用价值。本文探讨了国内二语学习者语料库建设的发展,论证了基于校园网建设二语学习者笔语语料库的重要意义及可行性,并着重论述了构建该语料库的建设标注和基本流程。   【关键词】校园网 笔语语料库 二语学习者   一、引言   自上世纪80年代以来,基于计算机科学技术与二语习得研究的迅速发展,诞生了一种计算机辅助的二语教学研究的新方法,即二语学习者语料库研究。从90年代中期开始,随着计算机和网络在国内的普及,我国的语料库建设与研究飞速发展。其中,香港中学生英语语料库(HKUST)整理搜集了汉语普通话为母语的二语学习者语言素材,该语料库容量达到2500万词。此外,中国二语学习者英语语料库的容量为100万词,包涵专业英语,大学英语及中学英语学习者的各种语言素材,并完成了人工语言失误标注。而中国学习者口笔语语料库(SWECCL)包含两个子库:口语语料库(SECCL)和笔语语料库(WECCL),总容量超过200万词。这些语料库的建设有力推动了国内语料库语言学的发展,也为将来的语料库研究提供了宝贵的经验。   二、基于校园网构建笔语语料库的可行性   国内的语言教师凭借现代计算机和网络技术自建教学语料库的案例已比比皆是,各高校校园网的发展更是为语料库的建设提供了便利的条件。校园网的建设初衷是为教学的资源共享,信息交流及协同作业构建高效的平台,其交互性和开放性为师生互动和资源整合开拓了充分的空间。目前,多数的高校都在校园网设立了大学英语网络教学辅助平台,这些平台延伸了课堂教学的时间。通过这些平台,语言教师可以收集大量真实的笔语语料,并针对教学对象有目的的构建自己的笔语语料库。这种基于校园网构建的笔语语料库具有明显的优势,主要体现在:语料收集的目的性明确,真实性和准确性强;语料能够及时的扩展与更新,开放性和时效性强;语料库的设计非常灵活,文本的收集量大。同时,语言教师还可以通过互联网轻松的获得许多功能强大,使用便捷的标注工具和检索软件,这对于日后的标注和检索工作提供了保障。总之,校园网为语言教师搭建自己的笔语语料库提供了各种便利条件,也为基于网络技术的语料库研究发挥了重要的功用。   三、语料库的建设标准   首先,语料库的建库目的决定了语料库的建设标准。语料库建设的根本目的在于中介语的发展和二语习得研究。在建库时要遵循以下三个原则:   (一)开放性。由于二语学习者的语言具有明显的动态特征,开放式的语料库可以保证研究者选取语料的即时性,也便于研究者全面观察语言学习者的二语能力发展过程。   (二)代表性与均衡性。语料的采集会充分考虑二语学习者的语言能力,并根据其语言能力将语料库分割成若干子库,各子库的取样都力求均衡的收录比例。   (三)共时性与历时性。为语料标注时间可以实现语料的历时特征。其中,同一时期,同一级别的二语学习者的语料可以为其语言发展的共时特征提供参考。   四、语料库的构建   基于校园网的笔语语料库建设主要涉及两方面的内容:二语学习者的笔语语料;语料处理软件。其中,针对二语学习者笔语语料的研究工作包括语料的收集、分类以及标注和赋码。而语料处理软件又分为赋码软件和检索软件。   (一)语料的收集   语料的收集主要通过校园网实现,主要是二语学习者提交的作业、读书报告及笔记整理。依据语料收集的历时性与共时性的特征,研究者可以对一定级别的二语学习者进行跟踪研究,发现其语言能力的变化,力求全面的追踪中介语的发展过程。   (二)语料的分类   根据语料的来源,二语学习者的级别,采集时间这一原则对其进行科学的分类,以便后期的语料抽样和检索工作。首先依据文本类别将语料库分为若干子库,各子库又按照二语学习者的能力级别建立若干二级子库,二级子库再以时间为线索分为三级子库。这样,每个文本类别,每个级别和每个时间都形成一个独立的子语料库。建立这样的分级语料库有助于今后的分类检索。检索软件选用著名的Wordsmith软件包中的词频表检索工具,可以检索出语料库中某一主题研究的高频词。例如:针对“英国文学”这一主题调查二语学习者的心理词库,最终得到的词频检索表如下图:   (三)语料的标注   XML是一种可扩展的标记语言,其优势在于:读取简便,定义灵活,兼容性好,网络共享性强等。语料库的标注包括文本头信息和正文的标注。文本头信息的标注分为文本背景和作者信息的标注。正文的标注包括对语篇结构的标注和词性赋码。XML语言对词、句子、语篇等语言单位进行分层标注,其标签具有严格匹配的起始符和结束符。例如:文本标记的起始符为,结束符为;段落标记的起始符为   ,结束符为。这两项标记均在对文本的预处理过程中人工添加

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档