La mémoire de mathématiques

数学めも by Müde

偏差値について

前回のエントリーに、2つのことを書きました。

なんか正規分布に従っていそうなデータに対して、標準偏差で割って、平均を減じれば、標準正規分布に従ったデータになる

標準正規分布に従った値を取り出して、平均と標準偏差を使って、欲しい正規分布の値に変換している

よく受験業界で使われたりする「偏差値」というのは、この2つの操作によって作り出しています。その辺のことを少し…。


偏差値を求める式は、Wikipediaに載っています。すなわち、偏差値 T_i は、

T_i = \displaystyle \frac{10(x_i - \mu_x)}{\sigma_x} + 50

によって求まります。といっても、式が複雑ですね。まず、文字の多いところから見てみます。


まず、\displaystyle \frac{x_i - \mu_x}{\sigma_x} の部分ですが、はじめにそれぞれの文字がどういうモチベーションで使われているかを見てみます。

あるクラスにおいてテストをしたとします。出席番号1番の人のテストの点数が x_1 、出席番号2番の人のテストの点数が x_2 というように考えることとします。つまり、この x という記号には、テストの点数を表そう、というモチベーションがあります。

x_i というのは、i 番目の人のテストの点数という事になります。i には、本当なら、1とか2という数字が入るのですが、何番目の出席番号の人について考えているかわからないので、とりあえず x_i と置いています。

次に、\mu_x です。\muという記号は統計学なんかでの専門用語だと思って下さい。\mu という記号には「平均」という意味があります。\mu_x なら、テストの点数の平均、つまり、平均点という意味です。

そして、\sigma_x ですが、\sigma統計学での専門用語だと思って下さい。\sigma標準偏差を表します。\sigma_x なら、テストの点数の標準偏差という意味です。

自分の点数から平均点を引いて、標準偏差で割っている…。もし仮に、テストの点数が正規分布に従っているのであれば、この操作は、自分の点数が標準正規分布では、どの値になるかを求めている、ということになります。

自分のテストの点数が x_i だったので、標準正規分布に変換した後の自分のテストの値をx_i' とでも置いておきましょう。


さて、\displaystyle \frac{x_i - \mu_x}{\sigma_x} の値を x_i' と置くと、先ほどのT_iの右辺の値にするには、10を掛けて50を足せば良いですね。すなわち、T_i = 10 x_i' + 50 です。

今、x_i'は標準正規分布の値だと言いました。この値に10を掛けるということは標準偏差が10である正規分布の値に変換することですし、50を足すということは平均が50の正規分布の値に変換する事を意味します。

これをいっぺんにしているので、標準正規分布を、さらに平均が50、標準偏差が10の正規分布に作りなおしているのですね。

平均を50にしたり、標準偏差を10にする意味は、実はあまりありません。平均を0にすると、マイナスの偏差値を取る人がいっぱい出てきて可哀想だ、くらいの意味しかないと思います。

もちろん、平均を50、標準偏差を10にしたからといって、マイナスの偏差値を取ることはありえますし、別に上限が100というわけでもありません。

あまりにも平均が低すぎるときにすごく良い点数をとってしまった場合や、あまりにも平均が高過ぎる時にすごく悪い点数をとってしまった場合は、偏差値が100を超えたりマイナスになることがあります。


偏差値は、そもそもテストの点数が正規分布っぽく山になるのであればという前提で計算されるものなので、テストの点数を集計したら二極化してしまい山が2つあるとか、正規分布からかけ離れたデータになると意味を持ちません。

また、そもそもデータを集計する集団が変わればその意味も変わりますし、全く違うテストを受けた2つの集団の偏差値を比べることも意味のないことです。

偏差値という言葉はとても有名ですが、その裏にある統計的な意味を理解すると、もう少し偏差値という値といい感じに付き合えるのかもしれませんね。