中小学生学业质量测试有关技术说明.pptVIP

下载本文档

17
0
约 81页
2017-02-14 发布于天津
举报
版权申诉

中小学生学业质量测试有关技术说明.ppt

1、本文档共81页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中小学生学业质量测试有关技术说明

信息函数（例）试题试题参数 a b c 1 1.80 1.00 0.00 2 0.80 1.00 0.00 3 1.80 1.00 0.25 4 1.80 -1.50 0.00 5 1.20 -0.50 0.10 6 0.40 0.50 0.15 项目信息函数信息函数的性质同一试题信息函数随着所测被试能力的不同而不同；同时试题信息函数受试题自身特征的影响。 a，b相同的试题，c值大的信息量小。 a值大的试题，只是在较窄的区间内提供的信息量多，a值小的试题，对能力的估计提供帮助不大，但是广泛地分布在较宽区间试题提供信息量最大的位置，是在接近试题难度之处总结：项目反应理论的优点采用非线性模型，建立了被试对项目的反应与其潜在特质之间的非线性关系，这一点更符合事实；对被试能力的估计不依赖于特定的测验题目， IRT将被试能力和测题难度放在同一量尺上进行估计，无论测验的难易，被试能力估计值不变，不同的测验结果可直接比较；难度和区分度的估计值与被试能力无关。同一个测验项目，高能力和低能力被试的反应拟合同一条项目特征函数曲线(ICC)，同一条ICC所对应的项目参数是唯一的；总结：项目反应理论的优点测验信息函数的概念代替了信度理论，用测验对能力估计所提供的信息量的多少来表示测量的精度。这避免了平行测验的假定，并能给出不同能力被试的测量精度；根据项目信息量的大小来选择对能力估计精度最有增益的项目，使测验达到预先规定的满意的精度。对不同能力的被试实施不同测题，既提高了测量精度又缩短了测验长度；对测验等值、适应性测验、标准参照性测验的编制等问题给出了满意的解决办法。总结：项目反应理论的缺点单维性假定难以满足，多维模型尚处于探索阶段； IRT建立在更复杂的数学模型之上，依赖更强的假设，计算复杂，不易被人掌握； IRT对测验条件要求较严格，样本容量要大，被试的能力分布范围要广，测题数量要多，这些条件不满足就会影响其精确性；对CTT的一些研究领域，如测验效度问题等，IRT并没有提出独到的见解。测验公平性的问题为什么要研究题目或测验的偏差或功能差异研究者经常关心不同群体之间的比较；有意义的比较要求测量工具在不同群体中表现相同；方法： CTT将不同群体能力相同考生表现出的差异称为项目偏差； IRT称为DIF/DTF。 DIF的理解不同群体总分相同的学生，在某个题目的作答正确率（得分率）应该相同；能力相同的学生，不应该以他的其他特征不同而不同（如性别等）。 DIF举例 DIF举例甄别DIF/DTF的方法项目功能差异（DIF）参数方法 Lord’s Chi-Square Likelihood Ratio Test Signed and Unsigned Area Methods 非参数方法 SIBTEST Mantel-Haenszel 试卷功能差异（DTF） Parametric Raju’s DFIT Method Nonparametric SIBTEST 组卷（水平测试）内容上的均衡：每个考核维度上保证一定的题量；为了测量整个总体，测验中需要各种难度的题目；应该考虑临界分数点题量以及测验的信度。根据预测的结果考虑考生分布的特征与预期的结果一致吗？根据预测结果考虑试题难度分布与预期的结果一致吗？根据预测的结果按照测验的目标有依据地组卷。 IRT 提供的测验的信息用来组卷 SE TIF IIFs IRT提供的项目特征用来组卷 TCC IRFs for “good” items IRF for “poor” item 组出一套能够测量较广范围能力的试卷组成一套用于选拔某类考生群体的试卷组出两套平行的测验谢谢！刘红云北京师范大学心理学院心理测量与评价研究所联系方式：hyliu@bnu.edu.cn * * 题目和总分的相关(Item-total Correlations) 不相关的内容可以简单求和吗？如果测验中的某个题目与其他题目毫不相关，这个题目对提高测验的信度理论上贡献不大；题总相关除了描述测验题目的区分度外，从另外一个角度可以考察测验题目对整个测验信度的贡献。测验的信度如果题目测量的特质或能力不相关，那么测验的信度一定不高；一般采用Cronbach’s alpha 内部一致性信度；高的项目和总分的相关可以提高测验的信度；测验的长度也影响测验的信度。关于磁悬浮列车减小摩擦的方法，正确的说法是 A. 给摩擦面加润滑油 B.减小摩擦面间的压力 C .使摩擦面脱离接触 D.变滑动为滚动难度区分度鉴别指数低分组正确率高分组正确率 D 0.741 0.827 0. 2909 0.