2014年5月10日土曜日

グレた確率統計 ~二項分布と幾何分布~

(ここに、”確率とはなにか”というのがいるとは思うのですが、前提知識としておきます)
(期待値、分散、モーメント母関数の定義はwikipediaに任せます)

# 二項分布

「二項」と言うくらいですから、コインの裏表のように「2つの事象」のどちらかが生じるような試行を考えます。コインになぞらえて、2つの事象をそれぞれH(head)とT(tail)と呼ぶことにします。
各試行は独立とします。このような試行をベルヌーイ試行と言うそうです。
さて、ベルヌーイ試行をn回行ったとき、Hがk回生じる確率は、

$$
Pr(X = k) = {}_n \mathrm{C}_k p^k (1-p)^{n-k} = \frac{n!}{(n-k)! k!} p^k (1-p)^{n-k}
$$

となるのは高校出てたら分かるでしょう!
もちろん、これは $ k : 0 \to \infty $ まで足し合わせると、1になるのは読者への演習(ry

概形はおおよそこんな感じになります。

0.3の確率で当たるなら、10回繰り返せば3回くらい出るだろうというのは間違ってないのがわかります。



一応、期待値と分散を求めておきましょう。(以下、適宜 $ q = 1-p $と書きます)
そのために、モーメント母関数を求めると、

$$
M_X (t) = E[e^{tX}] = \sum_{k=1}^n {}_n\mathrm{C}_k~e^{tk}~p^k(1-p)^{n-k} \\ = \sum_{k=1}^n {}_n\mathrm{C}_k~(pe^{t})^k~q^{n-k} = (q +pe^t)^n
$$

なので、ここから芋づる式に期待値と分散は、

* 期待値
$$
E[X] = \frac{\mathrm{d} }{\mathrm{d} t}M_X(0) =npe^t(q+pe^t)^{n-1}|_{t=0} = np
$$

* 分散
$$
E[X^2] = \frac{\mathrm{d^2} }{\mathrm{d} t^2}M_X(0) = \frac{\mathrm{d} }{\mathrm{d} t} npe^t(q+pe^t)^{n-1} \\ = npe^t(q+pe^t)^{n-1}+n(n-1)p^2e^{2t}(q+pe^t)^{n-2} |_{t=0} \\ = np + n(n-1)p^2 = n^2p^2 - np^2 + np
$$
$$
\therefore Var[X] = E[X^2] - E[X]^2 \\ = n^2p^2 - np^2 + np - n^2p^2  = np(1-p)~~~(= npq)
$$

となりますね!

# 幾何分布

これもベルヌーイ試行を考えます。
先ほどの二項分布では、Hの生じた回数をカウントしていたわけですが、
今回は、Hが1回生じるまでにかかる試行回数をカウントしましょう。
試行の度にカウンターを押し、Hが出たときのカウンターの数値がk となっている確率は、
k-1 回Tが出て、その次にHが出ればいいわけですから、

$$
Pr(X=k)=p(1-p)^{k-1} ~~~ (= pq^{k-1})
$$

と簡単に求まります。これが $ k : 1 \to \infty $ まで足し合わせると1になるのは読者への(ry
概形はこんな感じになります。もちろんのことながら、右下がりの指数関数ですね。


これも期待値と分散を求めましょう。
もちろん!モーメント母関数を求めますと、

$$
M_X(t)=E[e^{tX}]= \sum_{k=1}^\infty e^{tk}p(1-p)^{k-1} \\
= \frac{p}{q}\sum_{k=1}^\infty (qe^t)^k = p\cdot \frac{e^t}{1-qe^t}
$$

となりますから、ここから期待値と分散は

* 期待値
$$
E[X] = \frac{\mathrm{d} }{\mathrm{d} t}M_X(0) = p\cdot\frac{e^t(1-qe^t)+qe^{2t}}{(1-qe^t)^2} = p\cdot \frac{e^t}{(1-qe^t)^2}|_{t=0}=\frac{1}{p}
$$

* 分散
$$
E[X^2] = \frac{\mathrm{d^2} }{\mathrm{d} t^2}M_X(0) = \frac{\mathrm{d} }{\mathrm{d} t} \left( p\cdot\frac{e^t}{(1-qe^t)^2}\right) \\
= p \cdot \frac{(1-qe^t)^2~e^t + 2qe^{2t}(1-qe^t)}{(1-qe^t)^4} \\
= p \cdot \frac{(1-qe^t)~e^t + 2qe^{2t}}{(1-qe^t)^3} |_{t=0} = p \cdot \frac {p+2q}{p^3}=\frac{2-p}{p^2}\\
$$
$$
\therefore
Var(X) = E[X^2]-E[X]^2 = \frac{2-p}{p^2} - \left( \frac{1}{p} \right )^2 = \frac{1-p}{p^2}
$$

となりますね。

さて、ここで幾何分布の無記憶性を示しておきましょう。
無記憶性というのは「今までの結果はこれからのことに影響しない」ということです。
数式で書くと、条件付き確率で

$$
\forall n,k \in \mathbb{N}~~Pr(X > n+k|X > n) = P(X > k)
$$

と書けます。これに代入するために、$Pr(X > k)$を求めておきましょう:

$$
Pr(X > k) = 1 - \sum_{i=1}^{k}p(1-p)^{i-1} \\
= 1 - p\cdot\frac{1-q^{k}}{1-q} = 1- (1-q^k) = q^k
$$

簡単ですね!てなわけで、無記憶性の数式に代入すると、

$$
Pr(X > n+k|X > n) = \frac{Pr(X > n+k \wedge  X>n)}{Pr(X > n)} \\
= \frac{Pr(X>n+k)}{Pr(X>n)} = \frac{q^{n+k}}{q^n} = q^k = Pr(X>k)
$$

となり、確かに「過去のことなんか、関係ない!」となります。


# どんなことに使えるか

これら2つの分布の大本はベルヌーイ試行です。つまり、「YES or NOな現象」です。
ですから、
* 繰り返し行われる
* 独立である
* 確率は一定である
* その結果がデジタル値(0か1か、YESかNOか、HかTか)
ならば、上2つの分布がなりたつと考えていいでしょう。

ex1)
商店街のイベントで電子くじ引きをすることに決まった。
電子くじ引きは当たりか外れかのどちらかが一定の確率で出るとする。
「どうせなら」ということで、当たりは一度出たらくじ引きは終了とし、
その代わり、景品を(しょぼくれた商店街のくせに)ハワイ旅行にすることに。
もちろんのことながら、すぐ当たられては商売上がったりである。
そこで、100人より多いところで当たりが出る確率が
i) 90%になる当たりの確率 p とそのときの期待値
ii) 95%になる当たりの確率 p とそのときの期待値
iii) 99% になる当たりの確率 p とそのときの期待値
を求めてほしい。

ex2)
商品のとある機械は、1ヶ月に1度のメンテナンスで一定の割合である部分の故障が見つかる。
うちの方針で、必ずこちらが修理代を負担することになっている。
i) 今月、50台の機械をメンテナンスしたところ、4台が故障していた。
これは、今までのデータを見る限りごく平均的な故障台数である。
機械1台が次の月に故障している確率 p を求めよ。

ii) こんなにしょっちゅう故障されては、修理代のせいで赤字になってしまう。
そこで、会議の末、「2年保証」にすることにした。
つまり、なんとか故障確率を下げて、2年まではもつようにすればいい。
そこで、2年経つまでは故障しない確率が90%になるような故障確率を求めてほしい。

iii) 改善が達成したとき、修理代が1回10万円かかるとして、
1台、1年あたりの経費削減の見込みを求めてほしい。

iv) さらに、現在の機械保有者数は50人であり、これから保有者数が変わらないと仮定する。
また、故障確率を0.001下げるのに20万円の費用がかかる。
経費削減の分でこれを賄おうとすると、大体何年かかるか。


~解答~
ex1)
i) p = 0.00105305, 期待値 : 950人
ii) p = 0.000512801, 期待値 : 1950人
iii) p = 0.000100498, 期待値 : 9950人

ex2)
i) p = 0.08
ii) $p_{\mathrm{new}} = 0.0044$
iii) 90720円
iv) 3.3年

0 件のコメント:

コメントを投稿