KIGの古田です。
統計学を勉強するに当たっては、まず平均・分散・標準偏差を理解することが求められます。今回は、平均・分散・標準偏差の現実的な意義について説明していきます。
平均…いくつかの数値の代表として採用する値の一つ。相加平均・相乗平均・調和平均などがある。普通,相加平均をさす。(大辞林 第三版)
分散…資料の散らばりの度合を表すもの。平均値と各資料値の差(偏差)を2乗し,それを算術平均したもの。分散の数値が小さいほど資料は平均値のまわりに集まっている。標準偏差は分散の正の平方根である。(大辞林 第三版)
標準偏差…資料の散らばりの度合を表す数値。平均値と各資料の値の差(偏差)を2乗し,それを算術平均した値の平方根として求める。標準偏差が小さいことは,平均値のまわりの散らばりの度合が小さいことを示す。(大辞林 第三版)
これらは、国語辞典による解説ですが、入門書も概ねこのように説明しています。そして、入門書では、この説明の後に具体例を使って算出方法を解説するのが一般的です。ここで問題となるのは、算出された平均、分散、標準偏差が、具体的に何を狙っているかまで踏み込んだ解説がないことです。
平均、分散、標準偏差の具体例でよく使われるのが、テスト結果です。試しに算出してみましょう。下記のような20人のテスト結果があったとします。
このテスト結果における平均、分散、標準偏差は次のようになります。
平均=58.35、分散=264.13、標準偏差=16.25
さて、平均、分散、標準偏差は計算できました。では、これらは一体何を意味するのでしょう?どう使えばいいのでしょう?既に述べたように、残念ながら、統計学の入門書にはそれらを算出できたことでどうなるかの説明はありません。統計学の入門書を読んでもわからないのは、それらの算出方法をいくら丁寧に説明しても、算出結果が何を意味するのかを説明してくれないからです。そこで、今回はテスト結果について平均、分散、標準偏差を算出ることの意味を説明します。
そもそも、教師が生徒に対してテストをするということは、どんな意味があるでしょうか?目的は2つあります。一つは、個人個人の生徒の習熟度を把握すること。もう一つは、クラス全体の習熟度を把握することです。個人個人の生徒の習熟度は、テスト結果だけで十分です。問題はクラス全体の習熟度です。クラス全体の習熟度を把握するために、平均、分散、標準偏差を使うのです。なお、テストに関して言えば、平均と標準偏差があればいいのですが、標準偏差は計算上、分散がないと計算できないので、分散も計算することになります。
クラス全体の習熟度と観点において、平均は高い方がいいのは直感的に理解できると思います。であれば、平均だけでいいと考えがちですが、そうではありません。例えば、同じ20人のクラスで平均だけ70点というデータがあったとします。平均70点というと優秀なクラスのように感じますが、その実態は20人中14人が100点で残り6人が0点だったら、どうでしょう。むしろ、何らかの改善が必要だと思いませんか?実際、この例の分散は2,100、標準偏差は45.83となります。最初の例と比べると、全ての数値が大きくなっています。最初の例と比べると、平均では勝っていますが、生徒間の習熟度に差が大きいクラスといえます。つまり、平均だけでは実態を把握できないのです。
分散や標準偏差は、データのばらつきを表します。それらの数値が大きければ大きいほど、ばらつきが大きいデータとなります。クラスの習熟度という観点からは、ばらつきは小さい方がいいものです。平均が高くても、標準偏差が高ければ、それだけクラスの習熟度にばらつきがあるということなので、教育方法等の見直しが必要ということになります。従いまして、教師からすれば、平均を上げるだけでなく、標準偏差も小さくなるように生徒に教える必要があるというわけです。
統計学は、より確からしい意思決定をするために存在します。要するに、平均、分散、標準偏差は使われてこそ、意味があるのです。そのことを今回はテストの例を使って説明しました。今後も、ケーススタディ形式で統計学の活用方法を解説していきます。