2014年5月11日日曜日

グレた確率統計 ~負の二項分布再考~

前回は、畳み込みとそれを用いた再生性についてやりました。
二項分布には再生性がある、ということでしたね。
さて、それでは、幾何分布には再生性はないのでしょうか?

# 幾何分布と畳み込み

幾何分布に従う独立な確率変数2つの和を確率変数とする分布を求めてみましょう。
幾何分布は、
$$Pr(X=k)=pq^{k-1}$$
でしたね。
さて、独立な2つの確率変数、XとYを用意して、それらはそれぞれ
$$Pr(X=i)=pq^{i-1}$$
$$Pr(Y=j)=pq^{j-1}$$
とします。
そこで、新たな確率変数$Z=X+Y$を定義して、$Pr(Z=k)$ を求めてみようということです。
$$Pr(Z=k)= \sum_{l=1}^{k-1} Pr(X=l)Pr(Y=k-l) \\ = \sum_{l=1}^{k-1} pq^{l-1} \cdot pq^{k-l-1} = (k-1)p^2 q^{k-2}$$

どうやら、幾何分布には再生性は無いようです。
しかし、これは、負の二項分布のr=2に相当します!

どういうことかというと、新しい確率変数Zの意味するところが、
「事象がちょうど2回起こるのにかかる試行回数」だからです。

それでは、「事象がちょうど3回起こるのにかかる試行回数」は、というと、
$W = Z + G_1$ (ここで$G_1$は幾何分布に従う確率変数) なる $W$を定義すると、

$$Pr(W=k)= \sum_{l=1}^{k-1} Pr(W=l)Pr(G_1=k-l) \\ = \sum_{l=2}^{k-1} (l-1)p^2 q^{l-2} \cdot pq^{k-l-1} = p^3 q^{k-3} \frac{(k-2)(k-1)}{2}$$

となり、やはり、負の二項分布のr = 3 に相当します。
さあ、任意のrな負の二項分布に従う確率変数Xと、幾何分布に従う確率変数Yの和として定義した確率変数Zがr+1な負の二項分布に従うことを示しましょう。

負の二項分布は
$${}_{k-1}C_{r-1}~p^{r}(1-p)^{k-r}$$
でしたね。

$$Pr(Z=k)= \sum_{l=r}^{k-1} Pr(X=l)Pr(Y=k-l) \\ = \sum_{l=r}^{k-1} {}_{l-1}C_{r-1}~p^{r}q^{l-r} \cdot pq^{k-l-1} \\ =p^{r+1} q^{k-(r+1)} \sum_{l=r}^{k-1} {}_{l-1}C_{r-1} $$

ここで、
$$\sum_{l=r}^{k-1} {}_{l-1}C_{r-1}$$
は、$$ x = l -r$$と置くと、
$$\sum_{l=r}^{k-1} {}_{l-1}C_{r-1} = \sum_{x=0}^{k-r-1} {}_{x+r-1}C_{r-1}$$

組み合わせの公式に、
$${}_{m}\mathrm{C}_{m}+  {}_{m+1}\mathrm{C}_{m}+{}_{m+2}\mathrm{C}_{m}+...+{}_{n}\mathrm{C}_{m}= { }_{n+1}\mathrm{C}_{m+1}$$
があるので、これを用いると、結果的に、
$${ }_{k-1} \mathrm{C}_{r}~p^{r+1} q^{k-(r+1)}$$
が得られます。これはやはり、負の二項分布のr=r+1に相当しますね!

ということで、n個の幾何分布に従う確率変数の和はr=nの負の二項分布に従うわけです。

これは、モーメント母関数からも割と明らかで、
幾何分布に従う独立な確率変数、$X_1, X_2, ... , X_n$の和であるような確率変数Yのモーメント母関数は、
$$M_Y(t) = E[e^{t(X_1+X_2+X_3+...+X_n)}]=E[e^{tX_1}]E[e^{tX_2}]...=\\
\left(\frac{pe^t}{1-qe^t} \right )\left(\frac{pe^t}{1-qe^t} \right )\left(\frac{pe^t}{1-qe^t} \right )... =\left(\frac{pe^t}{1-qe^t} \right )^n$$
なわけですから、確かに幾何分布n個から成り立ってるなあと思えます。

ちなみに、二項分布に従う独立な確率変数、$X_1, X_2, ... , X_n$の和であるような確率変数Yのモーメント母関数は、
$$M_Y(t) = E[e^{t(X_1+X_2+X_3+...+X_n)}]=E[e^{tX_1}]E[e^{tX_2}]...\\
= (q+pe^t)^{n_1} (q+pe^t)^{n_2} (q+pe^t)^{n_3}... = (q+pe^t)^{n_1+n_2+n_3+...}$$
となるため、確かにモーメント母関数にも再生性が見られます。


このように、畳み込みを使うことで、より一般的な分布を導出することが可能なわけです。

# 少しの意味付け

上では、幾何分布を畳み込むことの動機を「再生性を確かめる」としましたが、
もう少し、応用的な側面で幾何分布を畳み込みたくなりましょう。

一旦、負の二項分布のことは忘れて(!)、幾何分布だけ知っている状態に戻りましょう!
すなわち、「初めて事象Hが起こるときの試行回数がk であるような確率」は知っているとします。
そして、「事象Hがちょうど2回起こるときの試行回数がkであるような確率」を求めてみましょう。
しかし、その前に、具体例を以って理解しておくことにします。

ex) 確率$p$で事象Hが起こるようなベルヌーイ試行がある。
このとき、事象Hが10回目でちょうど2回起こる確率はいくらか。

まず、この場合の幾何分布は、
$$Pr(X=k) = p \cdot q^{k-1}$$
となります。さて、10回目の時点でちょうど2回起こるというのは、
「10回目までのどこかで1回起こり、そして10回目でもう1回起こった」ということです。
「どこか」とはどこでもいいわけで、例えば、3回目で1回、10回目でもう1回というような確率は、
$$ p q^2 \cdot p q^6$$
となります。ここで大事なのが、2回目が10回目で生じたというのは、4回目を2度目の開始点とし、そこから数えて7回目にHが生じたということです。
「どこか」は他にもあって、
* 1回目と10回目(2回目から始めて9回目)
* 2回目と10回目(3回目から始めて8回目)
* 3回目と10回目(4回目から始めて7回目)
と全部で9つあります。これらをすべて足しあわせたものが答えになります。つまり、
$$ Pr (X=10) = \sum_{i=1}^9 p q^{i-1} \cdot p q^{(10-i)-1} $$

ここに畳み込みが現れているのが分かりますね。
この結果はr = 2 の負の二項分布で k=10 としたものと同じになるのは上で求めたとおりです。

これを踏まえると、単に10をkに置き換えれば、一般化できますね。
このように、ごく素朴に幾何分布を使って「k回目にちょうどr回起こる確率」を求めることができます。



1 件のコメント:

  1. Zの確率密度関数はどのように求めているのでしょうか

    返信削除