一般化可能性理論とパフォーマンス評価 performance.pptVIP

下载本文档

2
0
约6.6千字
约 35页
2017-03-26 发布于天津
举报
版权申诉

一般化可能性理論とパフォーマンス評価 performance.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一般化可能性理論とパフォーマンス評価 performance.ppt

一般化可能性理論 generalizability theory とパフォーマンス評価 performance assessment 日本学術振興会?東京工業大学村山航 murakou@orion.ocn.ne.jp Contents 一般化可能性理論とはパフォーマンス評価に対する一般化可能性理論研究の現状 Contents 一般化可能性理論とはパフォーマンス評価に対する一般化可能性理論研究の現状古典的テスト理論信頼性 reliability ＝尺度の一貫性?安定性信頼性係数全分散における真値の分散の占める割合誤差分散が大きいと小さくなる推定方法再テスト法，平行テスト法，Cronbachのαなど補足：信頼性と妥当性妥当性：測定したいものを測定できているか古典的な「信頼性」概念の限界意味が多義的：「安定」「一貫」とは何か？時間的に安定しているのか：再テスト信頼性（同じ概念を測定する）テスト?項目間で一貫しているのか：α係数ポイント：「誤差」の意味によって信頼性の意味も変わってくる一般化可能性理論 generalizability theory とは古典的テスト理論より洗練された形で信頼性を評価する手法：以下の２つの段階がある Generalizability G study 分散分析 ANOVA の原理を用いて，異なるソースの誤差分散の成分を分離して推定する Decision D study G study で得られた分散成分をもとに，さまざまなデザインにおける信頼性を評価する用語相 facet 評定者，項目，時間といったテストの諸側面．一般化可能性理論では，この相ごとに誤差を分離していく．測定の対象 object of measurement 多くの場合，人（もしくは学校）．ここの分散が真値の分散とみなされる．ユニバース（universe それぞれの相における母集団（のようなもの）．一般化可能性理論で「母集団」 population という言葉は「測定の対象」にのみ使われる．具体例 Brennan et al., 1996 より） California Assessment Program CAP の理科のアセスメント（一種のパフォーマンス評価）５つの課題 t ３人の評価者 r がすべての課題を評価得点はどれも１点－４点評価の対象は当然受験者 p G study 変量効果の分散分析により分散成分平均平方和MSではないので注意）を推定ユニバース?母集団における個々の効果の分散 p x t x r デザインのとき，求める分散成分は交互作用を含め，p, t, r, pt, pr, tr, ptr + e の 7 つ． CAPの結果 G study より分かったこと個々の得点は生徒間の個人差をある程度は捉えているただし，課題によって生徒の順序が入れ替わってしまう ? 大問題（テスト結果が使われた課題に大きく依存してしまうから）評定者間のばらつきは思ったほど大きくない（むしろ小さい） D study D study における信頼性の推定複数の相からのサンプルにおける「平均値」の信頼性（一般化可能性）を求める「評定者を４人に増やしたら？」といった仮想の実験デザインに対する信頼性の推定も可能 p x t x r デザインにおける推定２種類の信頼性係数 Dependability Coefficient Φ 以外すべてを誤差と考える Generalizability Coefficient ρ2 or Eρ2 Personとの交互作用のみを誤差と考える Φとρ2 の違いポイント：やが大きいのは問題か？ Φとρ2 の違いポイント：やが大きいのは問題か？２種類の信頼性係数：まとめ受験者の相対順位に興味がある場合はの大きさをみる必要性多くの場合はこちらが重要相関に興味がある場合もこちら Cronbachのα係数は p x I デザインにおけるこの係数と等しい受験者の絶対得点に興味がある場合（e.g., standard settingなど）は，の大きさをみる必要性 CAPの結果仮想のデザインに対する信頼性の推定評定者や課題を増やす（減らす）と信頼性はどうなるのか？ CAPの場合 Brennan 1996 より D study より分かったこと３人の評定者，５つの課題である程度は信頼性が保たれている課題を増やすことでより信頼性を高めることが可能．評定者を増やしてもそれほど信頼性は高まらない（コストによっては，課題を増やし，評定者を