对外汉语教材等级词频统计模块构建.docVIP

下载本文档

3
0
约4.79千字
约 9页
2017-07-29 发布于福建
举报
版权申诉

对外汉语教材等级词频统计模块构建.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

对外汉语教材等级词频统计模块构建

对外汉语教材等级词频统计模块构建【摘要】在对外汉语教材的编著过程中,用词频度和难度直接影响教材编著的质量。根据《汉语水平词汇与汉字等级大纲》(以下简称《大纲》)8000多等级用词目、词性、难度等级三个属性,设计并实现对外汉语教材编著系统难度等级词频统计模块,并在20万教材语料基础上,进行实验。实验证明,在速度上取得了较为良好的效果。【关键词】对外汉语教材编著系统;词频检索统计;汉语词汇等级;键树【中图分类号】G40-057 【文献标识码】A 【论文编号】1009―8097(2009)07―0086―04 一引言教材编写是对外汉语教学资源建设的重要环节,如何提升教材编写的速度和质量,使人们从教材编写过程中那些诸如查找生词、控制词汇、加注拼音等费时费力而且容易出错的繁琐工作中摆脱出来,现代技术手段的有机融入是非常必要的。正如崔永华教授所说的那样:“只有语言学、语言教学和现代技术的完美结合,才能让编写教材变得这么方便、快捷、准确、得心应手。”【1】对外汉语教材编著系统应运而生,陈锋在其硕士论文《对外汉语教材编写辅助系统的设计与实现》[2]中提到编写教材的流程图如图1所示。随着计算机、网络、语料库等技术的飞速发展,现代教育技术在对外汉语教学中的应用范围不断拓展,这为对外汉语教材编著系统的技术实现提供了可靠的保障。如何控制教材编写难度等级以适应不同水平教材使用者的需要,同时避免汉语教学内容的盲目性和随意性,一直是教材编写者面对的重要问题。编写者控制教材难度,主要是通过量化语言点,即对词汇、语法、功能、文化进行分级,检查教材语料分级语言点覆盖以及分布情况,并反复修改教材内容,来达到控制教材水平的目的。在实际操作中,由于词汇的可控制性最强,所以,水平等级教材主要是在词汇上控制难度[1]。基于以上论述,本文将尝试着设计并实现对外汉语教材编著系统中的难度等级词频统计模块。以《大纲》[3] 8000多等级词汇为难度等级依据,统计模块将分别统计出汉语教材语料词汇中甲、乙、丙、丁、超纲词频率,以及这些词在教材各处的分布情况,以确定教材的用词难度,教材编写者可依据该模块得出的统计结果对教材用词进行相应的调整以控制教材的难度水平。二难度等级词频统计模块设计与实现目前,出现了一些辅助对外汉语教材编著工具,主要有储诚志博士设计的《中文助教》[4]和厦门大学卢伟等人开发的“基于WEB的对外汉语教材编著系统”。《中文助教》通过8000多万字的现代汉语平衡语料库处理分析得出常用度等级生词,提供了使用频度分析[1];卢伟等人开发的对外汉语编著系统中,利用《大纲》对教材语料进行等级词语检索统计以实现教材的定量分析与控制[5]。这两类工具的教材难度定量分析任务,主要还是通过词汇难度划分来实现的,因此,本文将借鉴此思路,使用《大纲》作为教材难度等级词频分析的重要依据。《大纲》(1992年)由国家对外汉语教学领导小组办公室修订完成,它不仅为对外汉语教学词汇量的界定、等级的划分、词性的确定等方面提供了较为科学的依据。同时它也是现阶段国内对外汉语教学设计、教材编写、课堂教学的主要依据,有着严谨的结构和权威性[6]。本文难度等级词频统计模块设计将直接参考《大纲》中的词汇的词性、难度等级等信息。 1设计思路本文的设计思路如下图2所示: 汉语是以字为单位,词与词之间没有明显的边界信息。当句子长度和句子结构复杂性增加,句中出现的词数量随之增多,除了检索过程中词汇歧义问题将越发突出外,词检索次数也越发频繁。为了解决这些问题,本文首先使用分词模块对教材语料做分词处理,让处理后的语料得到精确的边界、词性信息;然后,在检索统计模块中,根据分词后语料携带的各种信息,参考《大纲》中给出的词汇、词汇难度等级、词性三者对应关系,做归类统计操作,获得词频、词性词频、词等级难度词频、超纲词数目以及等级词汇和超纲词汇在不同语篇中分布等各类信息。其中,词汇、词汇难度等级、词性对应关系如图3所示: 2 检索统计模块实现文本检索依赖于关键词模式匹配。多关键词模式匹配是从目标文本中一次查找匹配多个关键词的过程。文献[7]中借用键树结构[8](图4所示)的双链树形式保存关键字,使用了多关键词模式匹配进行检索。它的具体做法是:将所有待搜索关键词保存在键树结构中,用叶子结点标志关键词结束,并且在叶子结点中也保存了关键词的频率信息;检索统计时,使用广度优先搜索来匹配目标文本串和树中多个关键词,如果目标文本串在键树中存在一条从根到叶子节点的路径,统计频率加一,否则,放弃对当前的操作,继续处理下一个词。本文在文献[7]的基础上,以《大纲》词汇作为关键词集,在深入分析《大纲》中8000词的基本特征规律、存储特征及词