2014年5月11日日曜日

グレた確率統計 ~負の二項分布~

さて、前回は二項分布と幾何分布についてやりました。
とはいえ、大本はベルヌーイ試行(0か1か)でしたね。
それぞれの意味合いは、
* 二項分布 : n回試行したときに、事象Hがk回起こる確率の分布
* 幾何分布 : 事象Hが初めて起こるのがk回目である確率の分布
でしたね。

ここから脇道に逸れるとすれば、多項分布もありますが、
ここでは伏線にもなりうる負の二項分布をやりたいと思います。

# 負の二項分布

負の二項分布は、幾何分布の拡張とも言えます。
すなわち、「事象Hがちょうどr回起こるのがk回目である確率」です。
これは、k-1 回目まででHが r-1 回起こり、k回目でHが起こる確率です。
少し考えれば容易に立式できて、
$$
Pr(X=k)= {}_{k-1}C_{r-1}~p^{r-1}(1-p)^{(k-1)-(r-1)}\cdot p \\
=  {}_{k-1}C_{r-1}~p^{r}(1-p)^{k-r}
$$
となります。
ただし、k < r のときは、Cが定義されないので、0とします。
計算上は、(k-1)回試行の二項分布で、k = r-1としたものに pをかけた形となっています。
もちろんのことながら、r = 1 とすると幾何分布になりますね。


形としては、二項分布と幾何分布の間の子…みたいな感じになりますね。

さて、期待値と分散を求めようと思うのですが、一旦立ち止まって考えてみましょう。
幾何分布、すなわち1回事象Hが起こる回数の期待値は$1/p$ でした。
単純に考えると、r回起こる回数の期待値は$r/p$のような気がしますね。
もちろん、負の二項分布の場合もモーメント母関数を使って、
平均と分散を出せるのですが、…天下り的に負の二項定理なる、
$$
\sum_{r=0}^\infty {}_{n+r-1}\mathrm{C}_{r}~x^r = (1-x)^{-n}
$$
を飲み込んでもらう必要があります。
これを飲み込んでもらうとして、モーメント母関数を求めると、
$$
M_X{(t)} = E[e^{tX}] = \sum_{k=r}^\infty {}_{k-1}C_{r-1}~e^{tk}p^{r}(1-p)^{k-r}
$$
ここで、$m = k-r$とおくと、${}_{s+t}\mathrm{C}_s = {}_{s+t}\mathrm{C}_t$、例の公式より、
$$
\sum_{k=r}^\infty {}_{k-1}C_{r-1}~e^{tk}p^{r}(1-p)^{k-r} \\
= \sum_{m=0}^\infty {}_{m+r-1}C_{r-1}~e^{t(m+r)}p^{r}(1-p)^{m}\\
= (pe^t)^r \sum_{m=0}^\infty {}_{m+r-1}C_{m}~(qe^t)^m\\
=(pe^t)^r\cdot(1-qe^t)^{-r}= \left( \frac{pe^t}{1-qe^t} \right )^r
$$
と求まります。なんと、これは幾何分布のモーメント母関数のr乗ですね!
幾何分布のモーメント母関数を$f_{(t)}$と表すことにすると、
$$
M_X(t)=(f{(t)})^r
$$
なわけですから、幾何分布のところで求めたモーメント母関数の計算結果を利用しつつ、

* 平均
$$
E[X] = \frac{\mathrm{d} }{\mathrm{d} t}M_X(t) \\
= r(f(t))^{r-1}\cdot f'(t)|_{t=0} = \frac{r}{p}
$$

* 分散
$$
E[X^2]=\frac{\mathrm{d^2} }{\mathrm{d} t^2}M_X(t) = \frac{\mathrm{d} }{\mathrm{d} t}\left( r f'(t)(f(t))^{r-1} \right)\\
= rf''(t)(f(t))^{r-1}+r(r-1)\left(f'(t) \right )^2 (f(t))^{r-2}|_{t=0} \\
=\frac{r(2-p)}{p^2}+\frac{r(r-1)}{p^2}
$$
$$
\therefore Var(X)=\frac{r(2-p)}{p^2}+\frac{r(r-1)}{p^2}-\left( \frac{r}{p} \right )^2 = \frac{r(1-p)}{p^2}
$$

となります。
予想通り(?)、平均も分散も幾何分布のr倍となっていますね!

※ 補足 ---- ここから ----
ある分布 f, gのモーメント母関数をそれぞれ $M_f(t),~M_g(t)$ とし、
$$
M_g(t)=(M_f(t))^n
$$
のようにn乗の関係にあるとき、
$$
E_g[X] = \frac{\mathrm{d} }{\mathrm{d} t}M_g(t) = n(M_f(t))^{n-1}\cdot {M_f}'(t)|_{t=0} = n{M_f}'(0) = E_f[X]
$$
$$
E_g[X^2]=\frac{\mathrm{d^2} }{\mathrm{d} t^2}M_g(t) = \frac{\mathrm{d} }{\mathrm{d} t}\left( n {M_f}'(t)({M_f}(t))^{n-1} \right)\\
= n{M_f}''(t)({M_f}(t))^{n-1}+n(n-1)\left({M_f}'(t) \right )^2 ({M_f}(t))^{n-2}|_{t=0}\\
= n{M_f}''(0) + n(n-1)\left({M_f}'(0) \right )^2
$$
$$
\therefore Var_g(X) = n{M_f}''(0) + n(n-1)\left({M_f}'(0) \right )^2 - \left(n{M_f}'(0)\right)^2\\
= n({M_f}''(0)-{M_f}'(0)) = n\cdot Var_f(X)
$$
と、平均、分散がそれぞれn倍になります。

---- ここまで ----

少し長くなったので、ここで一旦終わります。

0 件のコメント:

コメントを投稿