2014年5月11日日曜日

グレた確率統計 ~畳み込みと再生性~

さて、前回は負の二項分布についてやりました。
負の二項定理なるものが出てきて、計算もやや煩雑で、うんざりしかけましたね。
今回は、畳み込みと、それを利用した再生性の問題について考えていきましょう。
結構重要ですが、本筋と関係ないといえば関係ありません。

# 畳み込み

畳み込みとは、簡単にいえば、
「$x + y = k$ の$x,y$を少しずつ変化させながら、足していく」という作業です。
なんじゃそりゃと思うかもしれませんが、確率の問題を解く際に無意識のうちに使っています。

ex1)
同様に確からしいサイコロ2つを投げる。その和が8となるような確率を求めよ。

ふつうに解いてみると、和が8となるような組み合わせは、
(2,6), (3,5), (4,4) の3通りで、サイコロは区別されるので、5/36 ですね。

少し丁寧な言い回しで解いてみましょう。
サイコロの出る目の確率変数をそれぞれ$X,Y$とします。
さて、今回求めるべき確率は、$Pr(X+Y = 8)$ですね。
XとYは独立ですから、これは、
$$\sum_{k=1}^6Pr(X=k)Pr(Y=8-k)$$
と書くことができます。はい、畳み込んでますよね!

一般的に、$Pr(X+Y = n)$を求めるとしても、やはり、
$$\sum_{k=1}^6Pr(X=k)Pr(Y=n-k)$$
とするだけです。これは、「2つのサイコロの目の和の確率分布」ですね。

そうすると、「2つのサイコロの目の和」という確率変数を導入したくなります。
これは、$Z = X+Y$ とおいてやればいいわけで、結局、
$$Pr(Z=n) = Pr(X+Y = n) = \sum_{k=1}^6Pr(X=k)Pr(Y=n-k)$$
ということです。



「複数の確率変数の和を新たな確率変数で表すとき」、畳み込みという操作がでてくるわけです。

# 二項分布の畳み込みと再生性

懐かしの二項分布に戻ってきましょう。
コインをn回投げて、表(H)の出る回数 X を調べていたとします。
そして、後日、また同じコインをm 回投げて、表の出る回数 Y を調べたとしましょう。
さて、この2つの実験を合わせた、表の出た回数 $i+j$ はどんな分布に従うでしょうか。

もちろん、$Z = X + Y$ と置きます。
また、それぞれの分布は、
$$Pr(X=i) = { }_n\mathrm{C}_i~p^iq^{n-i}\\
Pr(Y = j) = { }_m\mathrm{C}_j~p^jq^{m-j}$$
となります。さて、この2つの分布は独立ですから、
$$Pr(Z = n) = \sum_{k = 0}^n Pr(X=k)Pr(Y = n-k)$$
となります。
(総和の上限を n としたのは、別に $\infty$にしてもいいのですが、$k > n$ のときでは$Pr(Y=n-k)=0$ですから、結局足さなくてもいいわけです。)

ざくざく計算を進めてみましょう。
$$Pr(Z = k) = \sum_{l = 0}^k Pr(X=l)Pr(Y = k-l)\\
=\sum_{l = 0}^k { }_n\mathrm{C}_l~p^lq^{n-l} \cdot { }_m\mathrm{C}_{k-l}~p^{k-l}q^{m-(k-l)}\\
= p^k q^{n+m-k}\sum_{l = 0}^k { }_n\mathrm{C}_l \cdot { }_m\mathrm{C}_{k-l}$$
ここで、気をつけてほしいのが、 $k > n+m$ では確率は0であることです。
すなわち、上の計算は $0 \leq k \leq n+m$ に限っています。
さらに言うと、 $k > min(n,m)$ のとき、組み合わせCが未定義な項が生じます(${ }_nC_{n+1}$ とか)。
このような場合も確率は0となりますから、除外しています。
ですから、もう少し厳密に式を書くと、
$$ \mathrm{if}~k>n+m, Pr(Z=k)=0,\\
\mathrm{else}~Pr(Z=k) = p^k q^{n+m-k}\sum_{l = k-\mathrm{min}(k,m)}^{\mathrm{min}(k,n)} { }_n\mathrm{C}_l \cdot { }_m\mathrm{C}_{k-l} $$

さて、$\sum_{l = k-\mathrm{min}(k,m)}^{\mathrm{min}(k,n)} { }_n\mathrm{C}_l \cdot { }_m\mathrm{C}_{k-l}$ですが、
これは、$(n+m)$個の選択肢の中から$k$個選ぶときの場合の数は、選択肢を$n$個と$m$個に分け、$n$個のほうから$l$個、$m$個のほうから$k-l$個選ぶ、というのを$l$の取り得る範囲で行い、それぞれでの場合の数をすべて足すことによっても求められるということを意味しています。
きちんと証明したい人は、数学的帰納法で証明してください。読者への(ry

結局!
$$ \mathrm{if}~k < n+m, Pr(Z=k)=0,\\ \mathrm{else}~Pr(Z=k) = p^k q^{n+m-k}{ }_{n+m}\mathrm{C}_k$$
となるわけです。これは、二項分布の形ですね。

すなわち、独立な二項分布に従う2つの確率変数の和はやはり二項分布に従うということです。
このように独立な同分布に従う2つの確率変数の和が同じ分布に従うことを再生性があると言います。

0 件のコメント:

コメントを投稿