La mémoire de mathématiques

数学めも by Müde

確率分布のいろいろ、その1(離散一様分布、二項分布)

正規分布の形を決めるパラメータで次のことを書きました。

正規分布の山は、平均と分散という2つのパラメータによって形が決まる

正規分布の山、といっているのは、「正規分布」というなんだかよくわからないけれど「分布」と呼ばれているグラフのことです。

少し、用語を出してみます。いつものように、ざっくりとした、数学的には曖昧な説明ですが…。

  • 「分布」というのは正しくは「確率分布」のことを言います
  • 「確率分布」というのは、「確率変数」の各々の値に対して、その起こりやすさを記述するもの、だそうです(Wikipediaより)
  • 「確率変数」というのは「事象」に対して結びついている実数や整数のことを言います
  • 事象」とは、実際に起こることです

例えば身長を考えると、身長が160cmだった、170cmだったというのは事象です。さらに事象に対して確率変数を結びつけますが、単純にこれは単位を取っ払ってしまえば良いと思います。身長が160cmだったという事象に対しては、それは確率変数が160、とすれば良いですね。

こうしてたくさんのデータを取ってグラフを取ると、起こりやすさというのが見えてきます。身長であれば平均身長を中心にして山が見えてくるでしょうし、サイコロの目のデータであれば、どの目も同じくらいに起こるというのが見えてきます。こういう「起こりやすさ」というのを表したのが「確率分布」とざっくり考えておけば良いと思います。

さて、身長の場合は確率変数として様々な実数を取ることが分かります。それに対して六面サイコロの目であれば、1か2か3か4か5か6の6つの決まった値しか取りません。前者を連続変数、後者を離散変数と言ったりします。

身長であれば「正規分布」という分布に従いそうですし、サイコロであれば「一様分布」という分布に従いそうです。このような「分布」というのは、これ以外にも様々ありますし、どの分布も何かしらその式に「パラメータ」と呼ばれるものが含まれます。このパラメータに具体的な値を入れて、実際に使う「分布」を作り出します。

離散型の確率分布

離散一様分布

サイコロの目の確率のように、どの事象も同じ確率で起きる分布を言います。

パラメータは確率変数の数 n の1つだけ。

このとき、確率変数 Xk である確率は、 P(X=k) = \displaystyle \frac{1}{n} です。

サイコロの目であれば、確率変数の数は6ですので、どの値も出る確率は\displaystyle \frac{1}{6}です。簡単ですよね。

二項分布

結果が成功か失敗かの2つだけ。そして、成功する確率が分かっている場合に使います。コイン投げとか、病気になる確率が分かっている場合の罹患者の数を計算するときに使います。

パラメータは、独立した試行の数 n と、成功する確率 p の2つ。

確率変数 Xk である確率は、P(X=k) = \displaystyle \binom{n}{k} p^{k}(1-p)^{n-k} です。

コイン投げを10回するとき、そのコインが歪んでおらず表も裏も50%で出るのであれば、P(X=k) = \displaystyle \binom{10}{k} 0.5^{k}(1-0.5)^{10-k} = \displaystyle \binom{10}{k} \left(\frac{1}{2} \right)^{10} 。なんとなくこれも感覚でわかりますね。k=0のとき、すなわち、表が1回も出なかった時、最初の二項係数は{}_{10} C_0なので1。これに\displaystyle \frac{1}{1024}を掛けるのだから、相当確率としては低いことが分かります。

なお、二項分布を一般化したものを、多項分布と言います。


確率分布は、大学の試験の場合以外は、無理して覚えなくても良いと思います。検索すれば出てくることですし、それよりも重要なのは、それらの分布の使いどころです。

次のエントリーは、ポアソン分布、正規分布、指数分布を見てみようと思いますが、とりあえず今日はこれまで…。