3 语料库建设标准-151220.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3 语料库建设标准-151220

Logo 3.建设标准的研究内容   真实性是建设语料库的基本前提,无此前提,语料库就不能反映汉语学习者真实的语言面貌,基于语料库的研究及得出的结论也必然是毫无意义的。 代表性与真实性密切相关,在某种程度上也可以说是一种更大范围和更高层次上的真实性。 Logo 3.建设标准的研究内容 (2)平衡性与系统性  平衡性:不同类型的语料在分布上应尽可能均匀。例如不同国籍、不同母语、不同学习时间、不同专业背景、不同专业方向、不同汉语水平的学习者所产出的语料数量应该完全相同。 “理想的绝对平衡”:无法达到;不应追求。 “实事求是的平衡”:按比例分层抽样。 Logo 3.建设标准的研究内容    系统性:语料能够反映学生的整个学习过程和完整的语言面貌,便于从各种角度对语料进行观察分析,在研究上具有重要意义。 系统性的体现: (1)语料和学习者的背景信息齐全,并能够一一对应; (2)同一名学习者或同一个学习者群体在不同学习阶段或不同年级的语料齐全; (3)在各类考试中,通过考试和未通过考试的考生语料齐全,通过考试的考生中得到不同档次分数的考生语料齐全。 Logo 3.建设标准的研究内容 (3)有声性与有图像性 与笔语语料库相比,口语语料库的价值在于:可以了解学习者的语音面貌,可以对其进行声、韵、调等方面的考察与分析。多模态语料可以确认多人会话中的说话者身份,可以对言语交际中的体态语进行研究。 某些已建成的母语口语语料库或设计中的汉语中介语口语语料库,实际上是文本形式的口语生语料库,失去了口语/多模态语料库的最大特点。 因此,口语语料库必须具备“有声性”特点,多模态语料库还须具备“有图像性”特点,配备声音文件和视频文件,以满足语音和口语教学与研究的需要。 Logo 3.建设标准的研究内容 3.2.2 语料录入标准   为了保证真实性,应采取“实录”原则,对语料中的各类偏误及书写格式均须原样录入,不能做任何更改,以最大限度地保持“中介语”原貌。 对于笔语语料来说,错字无法直接录入。录入时可先以代码标示,后期加工时则应体现其原貌。 对于口语语料库来说,在把口语形式的语料转写为书面形式的语料时,还应如实反映口语表达中的停顿、重复、语音偏误等。 对于多模态语料库,还应描绘与口语交际相伴随的表情与肢体动作。 Logo 3.建设标准的研究内容 3.3 语料标注标准 3.3.1全面性与相对性    作为通用型汉语中介语语料库,语料标注的内容应尽量全面,理论上应在汉字、词汇、短语、句类、句型、句式、语篇、语体、语义、语用、修辞,乃至交际文化因素等各个方面、各种层面上对相关的语言现象进行标注,以最大程度地满足各种基于语料库的研究需求。 Logo 3.建设标准的研究内容     由于本体研究与习得研究的局限,所谓“通用型”语料库的建设必然受到某些限制,难以做到百分之百的“通用”,因而语料标注又是相对的。 拿语义问题来说,本来是应该标注的。但有些可以标注,例如“时常在家里弄得乱七八糟”;有些不易标注,例如“老师,你媳妇漂亮吗?” 另一方面,这方面的“大多数问题都可转化为词汇、语法问题来解决”(侯敏,2013),为了避免“不仅加大了标注员的工作量和工作难度,还会增加语料标注的错误率,影响语料库的信度和形象”(侯敏,2013),语义标注似应暂不作为标准,留待以后处理。 Logo 3.建设标准的研究内容 3.3.2 科学性与通用性    科学性指语料标注要正确,准确,符合汉语字、词的相关规范,符合一般的语法规则。对同类语言现象的判断与标注,要具有一致性。 与此相关,“语料库的标注者应该提供相关的标注质量信息”(郑家恒等,2010:6)。但从现实情况看,迄今为止,尚无一个汉语中介语语料库做过标注错误率的说明。 建设标准不仅要关注此问题,将其列为条款,而且应予特别强调。 Logo 3.建设标准的研究内容 通用性指语料标注代码应符合标准化与通用化要求,使用通用代码,以便于用户使用,也有利于语料的资源共享。 为此目的,学界应积极开展协作研究,尽快研制出能为学界普遍接受并乐于使用的语料标注规范与代码,从而实现语料标注的标准化与通用化。 Logo 3.建设标准的研究内容 3.3.3只标不改 作为中介语语料库,保持其中介语的“原汁原味”是建库过程中各个阶段都必须遵守的一条基本原则。标注也要忠实原作,对各种偏误现象“只标不改”,即只是指出语料中的偏误现象与偏误类型并进行分类标注,而不做任何修正。 Logo 3.

文档评论(0)

精华文库 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7111022151000002

1亿VIP精品文档

相关文档