文部科学省の試み、スーパーハイスクールのような教育プログラムの評価の仕方の話

FBに書いたことを転載しました。 先日だったか、英語のスーパーハイスクール校の当選高が発表されました。本日は手短かに、このような試みの評価の仕方について書きたいと思います。どのようにすれば、厳密に、スーパーハイスクールのような政策投資の効果を検証できるでしょうか? 仮の数字を使います。 来年度、40の高校をサポートできる資金を文部科学省が持っているとしましょう。すると、その2倍の数字、80の高校を一次当選させるのです。そして、その80の高校をランダムに二つに分け、合格組と、合格だったけど、すみません、不合格みたいなもんです、、というグループに分けます。 前者は実際に資金を得て、特殊なプログラムを生徒たちに受けさせます。これをTREATMENTグループと呼びます。 後者は、残念ですが、なんにもしません。前からやっていたことを続けてもいいし、別に何をしてもよいです。これをCOMPARISONグループと呼びます。 さて、4月に新学期が始まりますが、すぐに、両方のグループの生徒にGTEC、TEAP、TOEICのような英語の試験を一つ受けてもらいます。これをPRETESTと呼びます。 できれは心理統計モデルに基づいた標準テストが理想です。 学年の終わりにまた、試験を受けてもらいます。これはPOSTTESTと呼びます。 PRETESTとPOSTTESTのスコア、その他の生徒のデータが集まったら、統計分析をしますが、目的は、結局のところ、特別の資金を得て、特別なプログラムで教育を受けたTREATMENTグループのPOSTTESTスコアが、そうでないグループよりも良いかを比べます。 (言い方が難しいですが)、絶対と言うわけではありませんが、PRETESTを統計モデルでコントロールすると、グループ間の違いが、わかりやすいです。学校の数が80だと、統計的なパワーがそんなに強くないので、このような調整をすると、パワーが補足されます(そうすると統計的に有意な結果が出やすい、、とかくと、なんか悪いことでもしているようですw)。 以上です。グループの違いが統計的に有意であること、そして(またしても、説明しにくいですが)、スコアの違いがSDで考えて、せめて.20 、.25ぐらいは欲しいところです(ソフトな科学なのでか、教育リサーチでは、そんなに大きな違いが出ないのが普通)。 以上が厳密なメソッドですが、実際に実行するのは、色々と困難です。そもそも、1次で合格したのに、2次で不合格になった高校が、実験に参加してくれるのかという問題もありますね。何らかの、約束をとっておくか、2年後には、合格させますよ、、というような約束がいるかもしれません。 そもそも80校以上も応募があるのかというような問題もあるかもしれません。実験では、そのくらいの学校の参加数がないと統計のパワーが充分でなく、結果が出にくいことになります。