中国日语学习者语料库cljc的建设与应用.docxVIP

  • 70
  • 0
  • 约8.71千字
  • 约 8页
  • 2023-12-22 发布于广东
  • 举报

中国日语学习者语料库cljc的建设与应用.docx

中国日语学习者语料库cljc的建设与应用

随着bru语言收集库的建立,该库在不同的语法、词汇、风格等领域得到了广泛的应用。近年来,以推进二语习得或中介语研究为目的的学习者语料库建设也不断取得新的成果。朗文学习者语料库LLC、学习者英语国际语料库ICLE以及香港科技大学语料库HKUST都处在不断完善和发展的阶段。通过国内学者的多年努力,中国学习者英语语料库CLEC、中国大学学习者英语口语语料库COLSEC和英语专业学习者语料库CEM也先后建成,对我国二语习得研究和教学改革起到了巨大的推动作用,成为研究外语教学规律不可或缺的基本工具。

不必讳言,由于受到研究理念、研究对象以及相关法律等诸多因素的制约,虽然基于实际语料的研究在日本起步很早,但语料库的建设一直进展较为迟缓。特别是日语学习者语料库,尽管有着广阔的应用前景,但已建成的却寥寥无几。以下,首先概览现有的日语学习者语料库。在此基础上,从系统特色以及已取得的阶段性成果两个角度,对中国日语学习者语料库CLJC(ChineseJapaneseLearnerCorpus)进行综述和展望。

1研究日本语料库的现状

在现有的日语学习者语料库中,较早建立的是「外国人学習者の日本語誤用例の収集·整理と分析(外国人学习者日语误用例的收集、整理和分析)」。该语料库由寺村秀夫主持建立,简称“寺村语料库”,是日本文部省科研项目『日本語の普遍性と個別性に関する理論的および実証的研究(关于日语普遍性和个别性的理论及实证研究)』的子项目,历时四年,于1989年建成。语料采集自20余个国家、339名学生,共有作文、造句、内容摘要等8种形式,合计4601句,约21万字。

另一个规模较大的日语学习者语料库由日本国立国语研究所建立,全称为「日本語学習者による日本語作文と、その母国語訳の対訳データベース(日语学习者日语作文及母语翻译对译数据库)」,简称“国研语料库”。目前,公开的作文计1572篇。尽管具备了一定的规模,但从数据来源来看,这些素材采自21个国家的学习者。各国的数据采集量多则239篇,少则4篇,很不均衡。其中,采自中国学习者的素材仅有79篇,难以满足对特定国别学习者学习情况研究的需要。

除此以外,还有一个同类语料库名为「日本語学習者の作文コーパス:電子化による共有資源化(日语学习者语料库:通过电子化实现资源共享)」,简称“名大语料库”。该项目由名古屋大学的研究人员联合其他大学共同完成,收录的素材如表1所示(杉浦正利他1997)。

杨惠中(2002)指出,语料库的创建不是简单的语料叠加,它的设计包括了对许多因素的考虑,如语料信道(口语还是书面语)、语料性质(真实信息或虚构)、语料目的(用于论证、描述还是提供信息)、语料获得渠道和方式(如手工输入或扫描)等。而桂诗春、杨惠中(2003)也指出,学习者本身是有差异的,但所建的学习者语料库必须是同质的(Homogeneous),即他们都是处于同一语言发展阶段。纵观现有的日语学习者语料库可以发现,尽管作为先行者,对于日语教育和研究做出了巨大贡献,但仍在一些方面存在着局限。最突出的问题就是语料不同质。学习者国籍不同,水平参差不齐。来源混杂造成语料缺乏代表性。而各子类素材绝对数量的不足则导致语料不能很好地反映学习者的整体水平。如果要集中考察其中某一类学习者的具体情况,必然会遭遇到素材匮乏的问题,不能很好地满足具体研究的需要。这极大地影响了这些语料库的实用性和有效性。

从赋码后的语料库中能够获取的信息远远超过原始语料(Meunier1998),因此各语料库均对收录的语料进行了标注。但是从具体赋码结果来看,它们或是未对全部素材进行标注,或是未进行错误分类和修正,或是数据结构不甚理想,或是未提供有效的检索工具。这些都在一定程度上影响了语料库的使用效果。

2语料素材的抽取

该语料库的语料随机抽选自2007年-2009年全国日语专业四、八级考试的作文和中译日试卷。该考试由教育部高等学校外语专业教学指导委员会日语分委员会组织实施,目的是对全国各大院校日语专业学生的日语水平进行综合评价。经过多年的努力,已经发展成为覆盖面广、代表性强、评价科学、受到社会广泛认可的专业评价体系。截止2010年,每年参加四、八级考试的学校分别达到230和241所,报考人数达到21131人和8907人。这在很大程度上保证了本语料库所收素材的代表性。而全国日语专业四、八级考试将考生分别限定为日语专业二、四年级,又确保了语料素材的同质性。

CLJC所收素材的抽取分两阶段进行。首先按照一定比例(2007年四级约1:30、八级约1:16,其他年份根据考生总人数适当调整),随机分别抽取1500份试卷(其中四、八级作文和八级翻译各500份)。遇零分或空白卷,则选取其前或后一份试卷。其次,从抽取到的试卷中,

文档评论(0)

1亿VIP精品文档

相关文档