- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分级阅读初探基于小学教材的汉语可读性公式研究
摘要:文本可读性分析是分级阅读研究的一个重要组成部分。本研究以四个版本的小学语文教材为黄金标准语料库,为1478篇课文各标定了44个文本特征,采用多元线性回归模型,以册数(12级)为难度等级指标,自主构建了一项新的可读性公式:册数=-2.44+0.01×字种+1.03×首现词表词种平均难度+9.32×虚词比例,并将其与前人构建的7个基于线性回归模型的汉语可读性公式进行了比较,结果发现虽然本文公式的总体解释率最大,但仅对低年级文本难度预测正确率最高,各个公式在不同的年级分别具有一定的优势。
一分级阅读与可读性公式阅读是个体获取知识的重要方式,也是文明传承的重要途径,阅读在现代社会中受到了前所未有的重视。然而,面对指数式增长的儿童读物,如何在浩如烟海的书籍中找到适宜的读物成为困扰老师和家长的难题之一。太难或太易的阅读材料会降低儿童的阅读效能感(可读性是指文本易于阅读和理解的程度或性质(目前,英语中已经发展出十多个比较成熟的可读性公式(汉语可读性公式研究起步较晚,数量较少。现有研究主要基于繁体(在汉语母语文本可读性分析领域,本研究致力于在上述研究的基础上,自主构建一项针对小学阶段的新公式,并重新拟合现有的7个汉语线性回归可读性公式(二小学语文教材黄金标准语料库的建立黄金标准语料库的构建是指选取一定数量的标准文本建立语料库,并确定其中各个文本的可读性等级或难度分数(选取占有率积累达八成的人民教育出版社、北京师范大学出版社、江苏教育出版社和西南师范大学出版社的四个完整版本的小学语文教材各12册,共计48本。录入所有课文,手动删去古诗、古文及没有标点的现代诗歌共210篇。最终小学语文课文标准语料库共有1478篇文本,12个等级(册数),共计801,550字,分布情况见表1。已有的可读性公式研究多基于所有文本构建可读性公式,计算模型拟合度R三文本特征选取及计算文本特征选取的不同是众多可读性公式的核心区别,虽然英语可读性公式数量众多,但一般都包含了词汇复杂度(例如词长、词频、音节数等)和句子复杂度(例如句长)作为核心指标(本文采用NLPIR汉语分词系统(Natural Language ProcessingInformation Retrieval Sharing Platform),对所有文本进行切词和词性标注处理,该工具的准确性达97.58%(四汉语可读性公式的构建在可读性公式的模型构建方面,目前常用的算法有线性回归模型、对数线性回归模型、逻辑回归模型和支持向量机模型等。有研究对这些模型的效果进行了检验,但并未取得一致的结论,例如,在梳理现有的8个汉语可读性公式时,发现在自主构建新公式时,由于44个特征数量仍然过多,且存在多重共线性问题,故对特征进行了选择。具体步骤如下:分别计算每个特征和册数的相关系数(见表2中的r列),按照绝对值从大到小,依次添加特征进入备选特征集。当加入某特征后,方差膨胀因子(Variance Inflation Factor,VIF)小于10时,即判定备选特征集不存在共线性问题,计算该特征加入后对因变量的独特解释作用(△R结果显示,所有的回归方程均显著,文本特征能解释册数等级变异的19%~69%,其中本文公式的解释率最高。五汉语可读性公式的验证为防止数据过度拟合,选取验证文本集进行可读性公式的效度验证,即以验证文本集为样本,将每篇课文的各项特征值分别带入上述七个可读性公式,从而得到每一篇课文的册数预测值。以相关系数r值(册数的预测值和实际值之间的相关)、R结果显示,所有可读性公式计算得到的册数和真实册数相关均显著(p0.01),最高达到了0.83(本文公式),表明文本的真实册数越高,评估结果也越高。此外,根据训练文本集构建的可读性公式对验证文本集的解释率在20%~69%,其中本文公式的解释率最高,各公式结果与训练文本集的结果模式均非常接近。由此可见,可读性公式的数据拟合具有一定的稳定性,并不受到具体文本取样的影响。从绝对准确率来看,最高也只有大约1/4的文本能被完全准确地分类到原有等级中,这可能是由于以学期为单位的等级划分较为狭窄。但如果放宽上下各一个学期,则分类准确性最高可提到57%(本文公式),高于随机水平(3/12=25%)。从平均绝对误差来看,本文公式的预测值与文本实际难度值之间的平均差异为1.55册,即1个半学期左右。为了进一步分析各个公式对不同册数课文的分类准确性,本文还分别统计了每一个公式在每种等级中的邻近准确率,结果见表5。从表5可以看出,各个公式对各个年级课文的预测准确率并不相同。总体而言,所有公式都对中年级的预测准确率较高,而对两端的等级预测较差
文档评论(0)