中小学生学业质量测试有关技术说明.pptVIP

中小学生学业质量测试有关技术说明.ppt

  1. 1、本文档共81页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中小学生学业质量测试有关技术说明

信息函数(例) 试题 试题参数 a b c 1 1.80 1.00 0.00 2 0.80 1.00 0.00 3 1.80 1.00 0.25 4 1.80 -1.50 0.00 5 1.20 -0.50 0.10 6 0.40 0.50 0.15 项目信息函数 信息函数的性质 同一试题信息函数随着所测被试能力的不同而不同;同时试题信息函数受试题自身特征的影响。 a,b相同的试题,c值大的信息量小。 a值大的试题,只是在较窄的区间内提供的信息量多,a值小的试题,对能力的估计提供帮助不大,但是广泛地分布在较宽区间 试题提供信息量最大的位置,是在接近试题难度之处 总结:项目反应理论的优点 采用非线性模型,建立了被试对项目的反应与其潜在特质之间的非线性关系,这一点更符合事实; 对被试能力的估计不依赖于特定的测验题目, IRT将被试能力和测题难度放在同一量尺上进行估计,无论测验的难易,被试能力估计值不变,不同的测验结果可直接比较; 难度和区分度的估计值与被试能力无关。同一个测验项目,高能力和低能力被试的反应拟合同一条项目特征函数曲线(ICC),同一条ICC所对应的项目参数是唯一的; 总结:项目反应理论的优点 测验信息函数的概念代替了信度理论,用测验对能力估计所提供的信息量的多少来表示测量的精度。这避免了平行测验的假定,并能给出不同能力被试的测量精度; 根据项目信息量的大小来选择对能力估计精度最有增益的项目,使测验达到预先规定的满意的精度。对不同能力的被试实施不同测题,既提高了测量精度又缩短了测验长度; 对测验等值、适应性测验、标准参照性测验的编制等问题给出了满意的解决办法。 总结:项目反应理论的缺点 单维性假定难以满足,多维模型尚处于探索阶段; IRT建立在更复杂的数学模型之上,依赖更强的假设,计算复杂,不易被人掌握; IRT对测验条件要求较严格,样本容量要大,被试的能力分布范围要广,测题数量要多,这些条件不满足就会影响其精确性; 对CTT的一些研究领域,如测验效度问题等,IRT并没有提出独到的见解。 测验公平性的问题 为什么要研究题目或测验的偏差或功能差异 研究者经常关心不同群体之间的比较; 有意义的比较要求测量工具在不同群体中表现相同; 方法: CTT将不同群体能力相同考生表现出的差异称为项目偏差; IRT称为DIF/DTF。 DIF的理解 不同群体总分相同的学生,在某个题目的作答正确率(得分率)应该相同; 能力相同的学生,不应该以他的其他特征不同而不同(如性别等)。 DIF举例 DIF举例 甄别DIF/DTF的方法 项目功能差异(DIF) 参数方法 Lord’s Chi-Square Likelihood Ratio Test Signed and Unsigned Area Methods 非参数方法 SIBTEST Mantel-Haenszel 试卷功能差异(DTF) Parametric Raju’s DFIT Method Nonparametric SIBTEST 组卷(水平测试) 内容上的均衡:每个考核维度上保证一定的题量; 为了测量整个总体,测验中需要各种难度的题目; 应该考虑临界分数点题量以及测验的信度。 根据预测的结果考虑考生分布的特征与预期的结果一致吗? 根据预测结果考虑试题难度分布与预期的结果一致吗? 根据预测的结果按照测验的目标有依据地组卷。 IRT 提供的测验的信息用来组卷 SE TIF IIFs IRT提供的项目特征用来组卷 TCC IRFs for “good” items IRF for “poor” item 组出一套能够测量较广范围能力的试卷 组成一套用于选拔某类考生群体的试卷 组出两套平行的测验 谢 谢! 刘红云 北京师范大学心理学院心理测量与评价研究所 联系方式:hyliu@bnu.edu.cn * * 题目和总分的相关(Item-total Correlations) 不相关的内容可以简单求和吗? 如果测验中的某个题目与其他题目毫不相关,这个题目对提高测验的信度理论上贡献不大; 题总相关除了描述测验题目的区分度外,从另外一个角度可以考察测验题目对整个测验信度的贡献。 测验的信度 如果题目测量的特质或能力不相关,那么测验的信度一定不高; 一般采用Cronbach’s alpha 内部一致性信度; 高的项目和总分的相关可以提高测验的信度; 测验的长度也影响测验的信度。 关于磁悬浮列车减小摩擦的方法,正确的说法是 A. 给摩擦面加润滑油 B.减小摩擦面间的压力 C .使摩擦面脱离接触 D.变滑动为滚动 难度 区分度 鉴别指数 低分组正确率 高分组正确率 D 0.741 0.827 0. 2909 0.

文档评论(0)

wujianz + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档