文部科学省の試み、スーパーハイスクールのような教育プログラムの評価の仕方の話

FBに書いたことを転載しました。

先日だったか、英語のスーパーハイスクール校の当選高が発表されました。本日は手短かに、このような試みの評価の仕方について書きたいと思います。どのようにすれば、厳密に、スーパーハイスクールのような政策投資の効果を検証できるでしょうか？

仮の数字を使います。

来年度、４０の高校をサポートできる資金を文部科学省が持っているとしましょう。すると、その２倍の数字、８０の高校を一次当選させるのです。そして、その８０の高校をランダムに二つに分け、合格組と、合格だったけど、すみません、不合格みたいなもんです、、というグループに分けます。

前者は実際に資金を得て、特殊なプログラムを生徒たちに受けさせます。これをTREATMENTグループと呼びます。

後者は、残念ですが、なんにもしません。前からやっていたことを続けてもいいし、別に何をしてもよいです。これをCOMPARISONグループと呼びます。

さて、４月に新学期が始まりますが、すぐに、両方のグループの生徒にGTEC、TEAP、TOEICのような英語の試験を一つ受けてもらいます。これをPRETESTと呼びます。

できれは心理統計モデルに基づいた標準テストが理想です。

学年の終わりにまた、試験を受けてもらいます。これはPOSTTESTと呼びます。
PRETESTとPOSTTESTのスコア、その他の生徒のデータが集まったら、統計分析をしますが、目的は、結局のところ、特別の資金を得て、特別なプログラムで教育を受けたTREATMENTグループのPOSTTESTスコアが、そうでないグループよりも良いかを比べます。

（言い方が難しいですが）、絶対と言うわけではありませんが、PRETESTを統計モデルでコントロールすると、グループ間の違いが、わかりやすいです。学校の数が８０だと、統計的なパワーがそんなに強くないので、このような調整をすると、パワーが補足されます（そうすると統計的に有意な結果が出やすい、、とかくと、なんか悪いことでもしているようですｗ）。

以上です。グループの違いが統計的に有意であること、そして（またしても、説明しにくいですが）、スコアの違いがSDで考えて、せめて.20 、.25ぐらいは欲しいところです（ソフトな科学なのでか、教育リサーチでは、そんなに大きな違いが出ないのが普通）。

以上が厳密なメソッドですが、実際に実行するのは、色々と困難です。そもそも、１次で合格したのに、２次で不合格になった高校が、実験に参加してくれるのかという問題もありますね。何らかの、約束をとっておくか、２年後には、合格させますよ、、というような約束がいるかもしれません。

そもそも８０校以上も応募があるのかというような問題もあるかもしれません。実験では、そのくらいの学校の参加数がないと統計のパワーが充分でなく、結果が出にくいことになります。