基于中介语料库的汉字偏误标记研究.docVIP

基于中介语料库的汉字偏误标记研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于中介语料库的汉字偏误标记研究

基于中介语料库的汉字偏误标记研究   摘 要:本文就汉字偏误在中介语料库中标记的问题进行探讨,通过对几大区留学生主要产生的偏误进行分类总结、分列出现有的一些对汉字偏误的标记、结合留学生大致的偏误类型结合各类标记的优缺点提出意见。 中国论文网 /6/view-7143246.htm   关键词:中介语料库;汉字偏误;汉字偏误标记   1.以欧洲、日本和东南亚华裔留学生为代表的汉字偏误类型   根据四川外语学院留学生部的扫描资料进行归纳、总结,列举以下三大板块留学生的偏误类型,以便根据其偏误类型做出具体的标记模式。   1.1欧美学生的汉字偏误类型   欧美学生偏误类型主要体现在由于汉字的表意文字和欧美的拼音文字的巨大差异造成的欧美学生在学习汉字时常常将横、竖写成弧状,化曲为直。   通过对欧美留学生产生的偏误类型进行归纳总结,大致有如下几种:一是用本国的字母字形来代替汉字的某些汉字的笔画和部件以及部件异位的情况;二是书写汉字时结构残缺不全。欧美留学生常常分不清楚具体的结构,把左右结构的字拆分成了两个字,上中下结构的字拆成了两到三个字。例如:“标”,他们写成了“木”和“示”等等;三是误加笔画或者遗漏笔画,尤其是笔画稍微复杂点的字,欧美留学生在书写的时候经常容易出现错误。例如“真”字中间的三横写成两横;四是形似字书写的偏误,即部件变形。例如:“矛”和“予”;五是同音字或近似音字间的替换。例如:“间”和“见”、“管”和“关”;六是笔顺问题。英语的书写没有笔顺的要求,他们受到母语的影响,往往通过“画”的方式进行书写。   1.2日本留学生的汉字偏误类型   造成日本留学生汉字偏误的原因大致是:繁简的差异,同一个文字在日语和中文中表达意思不同,相似的字之间有很细微的笔画差异。   根据语料库的统计,“为、时、个、亲、现、说、长、后、认、题”等在日语书写符号中都以繁体形式出现,导致其学习汉字错误率排在前20位。中日的汉字有一部分是来源于相同的汉字转化,但是转化的方式却不同,这也就导致了日本学生在书写的时候易出现偏误。比如:这样的“样”写成了“?印保?“讲话”写成了“?v?”,“因?椋ㄎ?)我迟到了,所以被老??(师)骂”。   汉字中形似字迹很多,这也导致日本留学生在书写汉字时往往忽略细小的差异造成偏误。如:“只有两天,家里人有事儿不敢(左边的横折少写一横或者一折)去”。   中文与日文有很多字和书写形式都很像。所以在书写时当中日双方某个常用汉字形状相近但字形差异不止一处时,往往容易造成偏误。如:把“及时”写成“急时”;把“场合”写成了“合”   1.3东南亚华裔留学生的汉字偏误类型   东南亚留学生他们的偏误类型更加复杂多样且各类偏误的数量分布极不均衡。具体的偏误类型大致分为以下一系列情况:部件错写或错用;笔画增减;音形皆近偏误;笔形错误和笔画组合关系错误;字形相近;声韵母均同;汉字所无笔画;不规范字;部件增减;部件镜像位置改变;韵母相同;声同;受到上下文或者方言的影响。   各个地区的留学生产生的偏误都有所差异,如何能利用这些差异,并总结出一定的规律用于实践教学也是中介语料库的意义所在。我们希望通过语料库中记录的相关资料,能顺利、便捷的找出某一类型的偏误,并有与之对应的实例及出现偏误的学者的相关背景资料。如果能通过计算机直接检索到欧美或者日韩学生的汉字偏误类型也将会对汉字教学起到重要的作用。所以统一而且规范的标记能将中介语料库里面收录的真实材料迅速的检索出来并用于教学。   2.以北京语言大学中介语语料库为例,讨论其标记汉字偏误的方法   北语的中介语语料库相对较为完善,并已经创制出一套系统的偏误标记方法。该语料库语料均记录有作者姓名、性别、年龄、国别、是否华裔、第一语言、文化程度、所学主要教材、语料类别、写作时间、提供者等23项属性。“汉语中介语料库系统”对抽样语料按照字、词、句、篇等不同层次进行了加工和标注,对语料样本的非规范形式做出索引标记,并登录其相应的规范形式。用这种方式建立起来的语料库可以直接用电脑进行索引,并且信息的涵盖量比较大。XML与语言错误标注是其具体的标注错误方式。   利用XML提供的标记功能可以对中介语语料库中的错误进行标注。语料库资料录入的都是来自真实的留学生资料,在制定程序前就必须对留学生的汉字偏误类型进行分类,比如是属于笔画缺失、增添还是结构错误等。在处理好之后就可以运用电脑软件对其进行标记了。如:“我字习汉语一年了”,常用的XML标注方法:“我/r字/n习/vg汉语/nz一/m年/q了/y。/w。”里面是错误所属的大类,并且要成对标记,内容为“错误修正/错误小类”。这种XML标注在理论上有很强的实用性,但是标注过程极为复杂并且有时不一定能够准确找到偏误类型。这种标注法使

文档评论(0)

cby201601 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档