La mémoire de mathématiques

数学めも by Müde

平均(期待値)と分散

平均(期待値)

確率論の文脈で平均、というと、期待値のことを指します。期待値は、確率変数を確率値によって加重平均したもの、ということができます。確率変数の取りうる値の平均、ということですね。

期待値は E(X) と書きます。丸括弧じゃなくて、大カッコを使って、E[X]と書くことが多いのですが、はてなの数式モードでは書けなかったので、丸括弧を使うことにします(直せたら直します)。

加重平均なので、確率分布が離散型の場合は、E(X) = \displaystyle \sum^{\infty}_{i=1} x_iP(X=x_i) で求められ、連続型の場合は E(X) = \displaystyle \int xf(x) dx です。

前回までのエントリーの文字を使えば、確率分布が離散型の場合は、E(X) = \displaystyle \sum k P(X=k) ということですね。文字のモチベーション…。

分散

先に定義だけ書いておきます。

分散は V(X) と書き、V(X) = E( (X - E(X))^{2} ) で求めます。

X - E(X)の部分は、確率変数 X と平均 E(X) の差を取っています。つまり、平均からのズレですね。このズレは、正になる場合も負になる場合もあるので、全体を2乗することで正にします。そして、その2乗の値の期待値を計算し、それを分散と定義しています。

イメージとしては、確率変数が平均からズレまくっていれば、(X - E(X))^{2}の値も大きくなります。分散が大きければデータがものすごく散らばっていますし、分散が小さければデータがあまり散らばってない、と考えることが出来ます。

式を展開してみます。カッコの中の X - E(X)E(X) は、平均という定数なので、別の記号にしてもいいはずです。なので、とりあえず、\overline{X} と置いてみることにします(E(X) = \overline{X})。 また、定数の期待値を計算すると、結局定数となるので、E(\overline{X}) = \overline{X} です(証明もできますが、覚えてしまったほうが楽です)。

V(X)
 = E( (X - \overline{X})^{2} )
 = E(X^{2} - 2X\overline{X} + \overline{X}^{2})
 = E(X^{2}) - E(2X\overline{X}) + E(\overline{X}^{2})
 = E(X^{2}) - 2\overline{X}E(X) + \overline{X}^{2}

今、E(X) = \overline{X} なので、2\overline{X}E(X) = 2\overline{X}\cdot\overline{X} = 2\overline{X}^{2} となります。ゆえに、

上式  = E(X^{2}) - 2\overline{X}^{2} + \overline{X}^{2}
 = E(X^{2}) - \overline{X}^{2}
 = E(X^{2}) - (E(X))^{2}

となりました。


この辺りは、大学の確率論の授業の4月、5月くらいに触れるくらい、非常に基本的なことかもしれませんが、その基本が重要だと思っています…。

確率分布のいろいろ、その3(正規分布、指数分布)

二項分布で、ずらずらと長く書いてしまった感じ…。とりあえず、正規分布と指数分布は、控えめに書いておこうと思います…。

連続型の確率分布

連続型の確率分布もいろいろあるのですが、離散型と少し違う部分があります。

まず、分布を示す関数を「確率密度関数」という名前で呼び、その関数を f(x) で示します。また、確率の値は一般的には区間で指定します。Wikipediaにもあるように…

P(a \lt X \lt b) = P(a \le X \lt b)
 = P(a \lt X \le b) = P(a \le X \le b) = \displaystyle \int_{a}^{b} f(x)\,dx

となります。

また、累積分布関数というものがあり、これは F(x) で表します。確率密度関数は小文字、累積分布関数は大文字ですね。

F(x) = P(X \lt x) = \displaystyle \int_{- \infty}^{x} f(t)\,dt

数式だけ見れば、ふーん、という感じですが、この累積分布関数を使えば、区間 a から b までの確率は、P(a \le X \lt b) = F(b) - F(a) と表せるということです。

ということで、どうしても教科書的な書き方になってしまいました…。

(正しくは、確率分布関数 P(x)微分可能であるとき、その P(x)導関数確率密度関数と呼ぶのですが、上の書き方だと説明の順番が逆ですね…。参考リンク → http://dsl4.eee.u-ryukyu.ac.jp/DOCS/error/node15.html )

正規分布

正規分布はざっくり言えば、平均が一番多くて、あとはなだらかに少なくなるような分布です。 具体例としてよく挙げられるのが、身長とか、テストの点数とかで、二項分布の n が十分大きい時の近似と説明されることもあります。

パラメータは平均\muと、分散\sigma^{2}で、確率密度関数f(x) = \displaystyle \frac{1}{\sqrt{2 \pi \sigma^{2}}} \exp \left( - \displaystyle \frac{(x - \mu)^{2}}{2 \sigma^{2}} \right) です。

指数分布

指数分布はポアソン分布を別の見方から見たようなものです。つまり、ポアソン分布は単位時間あたりに何回発生するかの確率であり、指数分布はどれくらい待てば事象が発生するかの確率です。

ポアソン分布同様、パラメータは単位時間あたりに発生する事象の数で、\lambda によって与えられます。確率密度関数f(x) = \lambda e^{- \lambda x} です。


なんか最後は、かなり適当になってしまいましたが、色々分布があるのだなあ…、というのをぼーっと覚えておけばいいのかなあと思います。

次のエントリーでは、平均と分散を見てみたいと思います。

確率分布のいろいろ、その2(ポアソン分布)

まずは、前々回のエントリーについて、2点補足です。

1点目は、「離散型の確率分布」という見出しについてです。こんなこと書かなくても良いと思いますが、離散型の確率分布というのは、確率変数に離散値を持つもの、離散変数を持つものの分布という意味です。連続変数であれば、連続型の確率分布、ということになりますね。

2点目は、これも書かなくて良いことかもしれませんが、二項分布についてです。二項分布の例でコインを10枚投げる場合について少し触れましたが、コインを10枚投げることが1つの試行であって、そのうち表が5枚出たとか、3枚出たというのが事象となります。試行と事象という言葉がありますが、試行がそのまま試すこと、事象は試した結果ということですね。

さて、続きです。

離散型の確率分布(つづき)

ポアソン分布

ポアソン分布は、二項分布と似ていて、ある結果が何回起きるのか、その確率を表したものです。二項分布では、2つのパラメータ、すなわち、起こる確率 p と、独立な試行の数 n がありました。ポアソン分布では、パラメータが1つしかなく、単位時間あたりに起こる回数 \lambda のみを与えます。

確率変数 Xk である確率は、P(X=k) = \displaystyle \frac{\lambda^{k}e^{-\lambda}}{k!} です。この式は、単位時間あたりに平均 \lambda 回何か発生することが分かっている時、その何かが単位時間あたりに k 回発生する確率がいくらかを表しています。単位は回なので、k は整数となります。

ポアソン分布は、二項分布の n\infty に飛ばしたものです。また、二項分布のもう一つのパラメータである p について、p = \displaystyle \frac{\lambda}{n} と考えます。この \lambda というのが、ポアソン分布のパラメータということになります。

p = \displaystyle \frac{\lambda}{n} は、つまり、\lambda = np です。今 \lambda は、単位時間あたりに発生する「何か」の数だと言いました。つまり定数です。ここに、n が極めて大きく、p が極めて小さいとき、\lambda は一定の値に保たれるという、ちょっと良くわからない仮定をそこに置きます。

ということを踏まえて、二項分布からポアソン分布を導出できるのですが、導出する式は既にネット上に色々あって、それを参考にして自分も手で計算したりしてみたものの、やはり参考にしたページにある式と同じようになってしまったので、導出方法をまとめているページのリンクをご紹介いたします。

上記PDFには、ポアソン分布の使いどころというのが書かれています。それを引用します。

(i) Poisson 分布は発生確率 p が小さくて例数 n が大きいときに使われる。

(ii) Poisson 分布の方が計算が楽なので、可能なら Poisson 分布を使いたい。

私も使いどころを考えたものの、やはり上に書かれている通りです…。ただ、(i)は二項分布からポアソン分布を導出するための仮定なので、非常に重要です。と、結局最後は、他者様のPDFの紹介に終始してしまいました。

とはいえ、二項分布からポアソン分布が導出される、ということは重要なポイントです。後日取り上げると思いますが、確率分布は他にも様々あるものの、ある分布のパラメータを無限に飛ばしたり、特殊条件をつけたり、逆に一般化することで、新しい分布が作られ、元の分布と新しい分布は相互に関係を持っています。二項分布からポアソン分布が導出できたのですが、ポアソン分布と同様に n を無限に飛ばすことで、正規分布を導出することも可能です。

次回は、正規分布を少し触れてみたいと思います。

デジャヴュについて

雑文です。いい加減なことを書いていますので、あまり深く考えず、ふーん、くらいの気持ちで…。


人間がなにか記憶するとき、脳がどのように記憶をしているかという詳しいことは分かりませんが、人間は多くの分子の結合だと考えれば、記憶をすることによって、脳の中では何かしら物質の変化が起きているはずだと思うのです。

人間の脳で記憶する部分は、生まれた時は空っぽの空間で、記憶することによって新たに記憶のための物質が作られる、というものではなく、予め記憶する部分には何かしらの物質が最初からあるのだけど、それが結びついていないために、記憶として意味を成すものになっていないのではないか、と思うのです。

記憶するという動作によって、記憶している部分の物質がつながったり変化することによって、意味のある記憶になると思うのですね。

プログラミングで言えば、ポインタに近い仕組みが脳にあると思うのです。メモリは、プログラムによって領域が確保され、そこにデータが格納されることで、再利用できる意味のあるデータとなるわけです。ただし、領域が確保されていない部分にも何かしらのデータが入っており、それを参照するとあらぬ動作をしてしまうわけです。

人間もそれと同じで、何かのきっかけで、本来参照されていない領域を参照してしまったために、本来自分が経験したことのない記憶のようなものを引っ張りだしてしまい、さらに、人間の高度な脳の機能である「連想」によって、既存の記憶と変な結びつきを持たせてしまうのではないかと思うのです。それが、既視感につながるんじゃないのかなあ、と思ったりしています。

人間は不思議なもので、ランダムなデータを見ても、そこに何かしら規則性を発見しようとします。これは、脳が効率的に記憶をするために、データに規則性を発見し、その規則を覚えるために、そのようなことをしているのではないかと思います。

こういった例は、記憶にかぎらず、錯覚についても同じことが言えて、錯覚が起きるのも、脳が勝手に画像をパターン化してしまっているからだと考えられます。

このように、脳の中では、現実世界で起きていることをそのまま受け入れず、一度単純化して処理する仕組みが有ると考えられ、その一つに連想記憶というのがある気がするのです。

ということで、人間の記憶には物質が関係しているのではないかということと、連想という仕組みから、デジャヴュというのが起きるんじゃないかなー、って、勝手に考えたりしていました。

おしまい。

確率分布のいろいろ、その1(離散一様分布、二項分布)

正規分布の形を決めるパラメータで次のことを書きました。

正規分布の山は、平均と分散という2つのパラメータによって形が決まる

正規分布の山、といっているのは、「正規分布」というなんだかよくわからないけれど「分布」と呼ばれているグラフのことです。

少し、用語を出してみます。いつものように、ざっくりとした、数学的には曖昧な説明ですが…。

  • 「分布」というのは正しくは「確率分布」のことを言います
  • 「確率分布」というのは、「確率変数」の各々の値に対して、その起こりやすさを記述するもの、だそうです(Wikipediaより)
  • 「確率変数」というのは「事象」に対して結びついている実数や整数のことを言います
  • 事象」とは、実際に起こることです

例えば身長を考えると、身長が160cmだった、170cmだったというのは事象です。さらに事象に対して確率変数を結びつけますが、単純にこれは単位を取っ払ってしまえば良いと思います。身長が160cmだったという事象に対しては、それは確率変数が160、とすれば良いですね。

こうしてたくさんのデータを取ってグラフを取ると、起こりやすさというのが見えてきます。身長であれば平均身長を中心にして山が見えてくるでしょうし、サイコロの目のデータであれば、どの目も同じくらいに起こるというのが見えてきます。こういう「起こりやすさ」というのを表したのが「確率分布」とざっくり考えておけば良いと思います。

さて、身長の場合は確率変数として様々な実数を取ることが分かります。それに対して六面サイコロの目であれば、1か2か3か4か5か6の6つの決まった値しか取りません。前者を連続変数、後者を離散変数と言ったりします。

身長であれば「正規分布」という分布に従いそうですし、サイコロであれば「一様分布」という分布に従いそうです。このような「分布」というのは、これ以外にも様々ありますし、どの分布も何かしらその式に「パラメータ」と呼ばれるものが含まれます。このパラメータに具体的な値を入れて、実際に使う「分布」を作り出します。

離散型の確率分布

離散一様分布

サイコロの目の確率のように、どの事象も同じ確率で起きる分布を言います。

パラメータは確率変数の数 n の1つだけ。

このとき、確率変数 Xk である確率は、 P(X=k) = \displaystyle \frac{1}{n} です。

サイコロの目であれば、確率変数の数は6ですので、どの値も出る確率は\displaystyle \frac{1}{6}です。簡単ですよね。

二項分布

結果が成功か失敗かの2つだけ。そして、成功する確率が分かっている場合に使います。コイン投げとか、病気になる確率が分かっている場合の罹患者の数を計算するときに使います。

パラメータは、独立した試行の数 n と、成功する確率 p の2つ。

確率変数 Xk である確率は、P(X=k) = \displaystyle \binom{n}{k} p^{k}(1-p)^{n-k} です。

コイン投げを10回するとき、そのコインが歪んでおらず表も裏も50%で出るのであれば、P(X=k) = \displaystyle \binom{10}{k} 0.5^{k}(1-0.5)^{10-k} = \displaystyle \binom{10}{k} \left(\frac{1}{2} \right)^{10} 。なんとなくこれも感覚でわかりますね。k=0のとき、すなわち、表が1回も出なかった時、最初の二項係数は{}_{10} C_0なので1。これに\displaystyle \frac{1}{1024}を掛けるのだから、相当確率としては低いことが分かります。

なお、二項分布を一般化したものを、多項分布と言います。


確率分布は、大学の試験の場合以外は、無理して覚えなくても良いと思います。検索すれば出てくることですし、それよりも重要なのは、それらの分布の使いどころです。

次のエントリーは、ポアソン分布、正規分布、指数分布を見てみようと思いますが、とりあえず今日はこれまで…。

偏差値について

前回のエントリーに、2つのことを書きました。

なんか正規分布に従っていそうなデータに対して、標準偏差で割って、平均を減じれば、標準正規分布に従ったデータになる

標準正規分布に従った値を取り出して、平均と標準偏差を使って、欲しい正規分布の値に変換している

よく受験業界で使われたりする「偏差値」というのは、この2つの操作によって作り出しています。その辺のことを少し…。


偏差値を求める式は、Wikipediaに載っています。すなわち、偏差値 T_i は、

T_i = \displaystyle \frac{10(x_i - \mu_x)}{\sigma_x} + 50

によって求まります。といっても、式が複雑ですね。まず、文字の多いところから見てみます。


まず、\displaystyle \frac{x_i - \mu_x}{\sigma_x} の部分ですが、はじめにそれぞれの文字がどういうモチベーションで使われているかを見てみます。

あるクラスにおいてテストをしたとします。出席番号1番の人のテストの点数が x_1 、出席番号2番の人のテストの点数が x_2 というように考えることとします。つまり、この x という記号には、テストの点数を表そう、というモチベーションがあります。

x_i というのは、i 番目の人のテストの点数という事になります。i には、本当なら、1とか2という数字が入るのですが、何番目の出席番号の人について考えているかわからないので、とりあえず x_i と置いています。

次に、\mu_x です。\muという記号は統計学なんかでの専門用語だと思って下さい。\mu という記号には「平均」という意味があります。\mu_x なら、テストの点数の平均、つまり、平均点という意味です。

そして、\sigma_x ですが、\sigma統計学での専門用語だと思って下さい。\sigma標準偏差を表します。\sigma_x なら、テストの点数の標準偏差という意味です。

自分の点数から平均点を引いて、標準偏差で割っている…。もし仮に、テストの点数が正規分布に従っているのであれば、この操作は、自分の点数が標準正規分布では、どの値になるかを求めている、ということになります。

自分のテストの点数が x_i だったので、標準正規分布に変換した後の自分のテストの値をx_i' とでも置いておきましょう。


さて、\displaystyle \frac{x_i - \mu_x}{\sigma_x} の値を x_i' と置くと、先ほどのT_iの右辺の値にするには、10を掛けて50を足せば良いですね。すなわち、T_i = 10 x_i' + 50 です。

今、x_i'は標準正規分布の値だと言いました。この値に10を掛けるということは標準偏差が10である正規分布の値に変換することですし、50を足すということは平均が50の正規分布の値に変換する事を意味します。

これをいっぺんにしているので、標準正規分布を、さらに平均が50、標準偏差が10の正規分布に作りなおしているのですね。

平均を50にしたり、標準偏差を10にする意味は、実はあまりありません。平均を0にすると、マイナスの偏差値を取る人がいっぱい出てきて可哀想だ、くらいの意味しかないと思います。

もちろん、平均を50、標準偏差を10にしたからといって、マイナスの偏差値を取ることはありえますし、別に上限が100というわけでもありません。

あまりにも平均が低すぎるときにすごく良い点数をとってしまった場合や、あまりにも平均が高過ぎる時にすごく悪い点数をとってしまった場合は、偏差値が100を超えたりマイナスになることがあります。


偏差値は、そもそもテストの点数が正規分布っぽく山になるのであればという前提で計算されるものなので、テストの点数を集計したら二極化してしまい山が2つあるとか、正規分布からかけ離れたデータになると意味を持ちません。

また、そもそもデータを集計する集団が変わればその意味も変わりますし、全く違うテストを受けた2つの集団の偏差値を比べることも意味のないことです。

偏差値という言葉はとても有名ですが、その裏にある統計的な意味を理解すると、もう少し偏差値という値といい感じに付き合えるのかもしれませんね。

正規分布の形を決めるパラメータ

前回のBox-Muller法のソースコードを見てみると、next関数の最後で、次の計算をしています。

  return result * sigma + mu;

これは、resultの値にsigmaという変数を乗じて、muという値を加えています。これは何を意味しているかというと…

  • resultの値には、すでに標準正規分布に従った値が入っている
  • resultの値にmuを加えることで、平均(山のピークの位置)をずらしている
  • resultの値にsigmaを乗じることで、山の裾野の広がり方を調整している

もう少し、正規分布について感覚的に言葉で書いてみます。


正規分布というのは、なにかたくさんデータを取ってきて、値を整理してグラフにしてみたら、山っぽいグラフになりました、というのが不正確でざっくりとした説明です。

この山の平均が0、分散が1の場合、その正規分布は、標準正規分布、と呼ばれます。ここで分散が1であるということの意味については追求しないのですが、分散についてざっくりと考えると…

  • 分散が小さければ、データは平均の周りにたくさん集まっていて、山としては尖ったものとなる
  • 分散が大きければ、データは平均よりも離れた場所にもそれなりに集まっていて、山としてはなだらかなものとなる

というものです。

何が言いたいかというと、この正規分布の山は、平均と分散という2つのパラメータによって形が決まる、ということです。

さて、分散の正の平方根をとったものを標準偏差、と言います。これも結論だけで有耶無耶な話になるのですが、標準正規分布から取り出した値に標準偏差を掛けて、平均を加えると、その標準偏差と平均に従った正規分布を取り出すことができるのです。

その操作が、上のソースコードの意味です。

BoxMullerクラスのコンストラクタには、平均と標準偏差を引数として与えています。next関数で標準正規分布に従った値を取り出して、最後にその平均と標準偏差を使って、欲しい正規分布の値に変換しているのです。

これは結構面白いことで、逆の操作をすれば、つまり、なんか正規分布に従っていそうなデータに対して、標準偏差で割って、平均を減じれば、標準正規分布に従ったデータになる、ということです。

標準正規分布にしてしまえば、検定とかも楽ですね。


と、すごくざっくりといい加減な話をしてしまいました。証明はいろんなページに載っているのでそれを参考にして頂ければ良いと思いますし、このページでも、(歩みは遅いですが)少しずつ数学的な証明を与えていきたいと考えています。