- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
论传统可读性公式不科学性
论传统可读性公式的不科学性
摘要:传统可读性公式的研制者认为字长、句长是预测词义、句义难度的最佳变量。本文通过相关性分析和回归分析论证字长、句长不能预测词义、句义难度。传统可读性不能为人们判定文本难易度提供科学有效的依据。
关键词:可读性公式 可读性 易读度 定性定量分析
引言
可读性是文本的难易程度。可读性公式是计算文本难度的方程式。传统可读性公式,如Flesch公式、Dale-Chall公式大多诞生于上世纪30至60年代,其共同特点是:用单词数(或音节数)计算词义难度,用句子长度计算句法难度。这就是人们对传统可读性公式的争议的焦点:用字长、句长能不能预测出难度。
可读性公式自诞生起就是语言学界和教育界最受争议的话题之一。如1981年,国际阅读协会和美国英语教师协会建议其成员不要滥用可读性公式评估教学材料。近年来,由于互联网和字处理软件提供免费可读性公式,出现了用可读性公式评估电子书、网站的新趋势。
本文从学术交流的角度出发,首先介绍可读性研究的方法,然后从相关分析和回归分析论证传统可读性公式的不科学性。
1. 可读性的研究方法
可读性研究常用方法有相关性分析和回归分析。相关系数r表示变量或现象的相关程度,如字长和难度的相关程度;回归分析可从一个或多个变量(自变量)推测另一个变量(因变量)。Klare概括了设计可读性公式一般步骤:
1)挑选标准文本,测出标准文本的难度值(因变量)。
2)判定影响难度的因素(预测变量)。
3)计算标准文本中难度因素出现的次数,并分析其与难度值的相关性。
4)选取相关系数较高的因素作为自变量。
5)用回归法,得出可读性公式。
近年来,出现了以大型数据库为基础的新可读性公式,如Lexile和ATOS,它们仍然使用字长句长来计算文本难度。公式支持者的结论是字长、句长是预测难度的最佳预测变量(Dubay)。他们的主要依据是试验数据显示字长、句长和难度的相关系数较高。
2. 相关分析和回归分析
传统可读性公式借助统计学的相关分析和回归分析来研究语言,但研究者却没有按照统计学原理判定影响难度的因素和验证公式的科学性。以Gray 和 Leary在1935年得到的试验数据为例(表2)。表2的两组数据分别为影响难度的17个因素和各因素与难度的相关系数(?r?>0.35)。Gray 和 Leary最后选择了 1(句长)、5(字长)、8(人称代词数)、15(不同词比例)得出了可读性公式。后人借鉴他们的研究结果,把字长句长定为预测难度的最佳预测变量。
表2:Gray 和 Leary得出的影响难度的主要因素(Dubay)
表面上看,他们的选择是合理的:字长、句长是与难度相关系数较高的一个。这也符合人们的直觉:长字、长句更难理解。但进一步分析,不难发现这一结论是错误的:
2.1相关系数不能证明字长、句长是最佳预测变量
表2中影响阅读的因素都有一个共同的特点,它们都为各种数字:长度、个数、百分比,而用这些数字计算相关系数的前提是定性分析(张集琼),即应首先判断因素和难度是否有联系,有什么样的联系,然后才能计算相关系数。从性质的角度分析,字长、句长和难度没有直接联系,它们只是单词、句子的浅层形式――长度,根本不能完全代表字义、句义。如果用性、量、度来计算难度,长度仅是较次要的一方面,也就是字长、句长不能当作自变量放到回归公式中了。
其次,从量的角度分析,相关系数也不能证明字长、句长有数的绝对优势。表2中各个因素相关系数差别很小,而且相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化(刘学华)。以人称代词为例,它们有时是产生难度的因素,有时又是促进理解的因素。如:
1)Paul told John that he wanted to help him out.
2)Paul told all students that he will help them.
两个句子中人称代词都出现了两次,但句2由于人称代词高密度,远比句1难理解。如果文章中两种情况的人称代词出现数量不同,会使人称代词与难度的相关系数发生高低不同的变化,即人称代词和难度的关系图不是直线,而是不规则的曲线。曲线用相关系数分析已没有意义。人称代词如此,名词、形容词也是如此。这种现象在字、词、句、篇章各个层面上都会发生。
相关系数也不能反映某些出现数量较少的因素的作用。例如,标题在一篇文章中只出现一次,好的标题能够唤起读者的背景知识,使难的文章变得更简单。它与难度的相关系数肯定没有字长与难度的相关系数高,因为次数这个计
文档评论(0)