18.8 事象の相互独立

第 18.7 節では \(2\) 個の事象に対する独立性を定義した。\(3\) 個以上の事象の独立性はどのように定義できるだろうか？例えばコインを \(n\) 回投げるとき、それぞれの結果が互いに独立である事実を表現するには？事象の集合が相互独立 (mutually independent) とは、その集合に属する任意の事象の確率が、他の事象の発生に関する情報から影響を受けないことを意味する。言い換えれば、\(2\) 個以上の事象を任意に取ったとき、それらが全て起きる確率がそれぞれの事象の確率の積に等しいなら、その事象の集合は相互独立である。

例えば、\(4\) 個の事象 \(E_{1}\), \(E_{2}\), \(E_{3}\), \(E_{4}\) が相互独立なのは次の条件が全て成り立つとき、かつそのときに限る:

\[ \begin{align*} \operatorname{Pr} [E1 \cap E2] &= \operatorname{Pr} [E1] \cdot \operatorname{Pr} [E2] \\ \operatorname{Pr} [E1 \cap E3] &= \operatorname{Pr} [E1] \cdot \operatorname{Pr} [E3] \\ \operatorname{Pr} [E1 \cap E4] &= \operatorname{Pr} [E1] \cdot \operatorname{Pr} [E4] \\ \operatorname{Pr} [E2 \cap E3] &= \operatorname{Pr} [E2] \cdot \operatorname{Pr} [E3] \\ \operatorname{Pr} [E2 \cap E4] &= \operatorname{Pr} [E2] \cdot \operatorname{Pr} [E4] \\ \operatorname{Pr} [E3 \cap E4] &= \operatorname{Pr} [E3] \cdot \operatorname{Pr} [E4] \\ \operatorname{Pr} [E1 \cap E2 \cap E3] &= \operatorname{Pr} [E1] \cdot \operatorname{Pr} [E2] \cdot \operatorname{Pr} [E3] \\ \operatorname{Pr} [E1 \cap E2 \cap E4] &= \operatorname{Pr} [E1] \cdot \operatorname{Pr} [E2] \cdot \operatorname{Pr} [E4] \\ \operatorname{Pr} [E1 \cap E3 \cap E4] &= \operatorname{Pr} [E1] \cdot \operatorname{Pr} [E3] \cdot \operatorname{Pr} [E4] \\ \operatorname{Pr} [E2 \cap E3 \cap E4] &= \operatorname{Pr} [E2] \cdot \operatorname{Pr} [E3] \cdot \operatorname{Pr} [E4] \\ \operatorname{Pr} [E1 \cap E2 \cap E3 \cap E4] &= \operatorname{Pr} [E1] \cdot \operatorname{Pr} [E2] \cdot \operatorname{Pr} [E3] \cdot \operatorname{Pr} [E4] \end{align*} \]

\(n\) 個の事象への一般化は明らかだろう。

18.8.1 DNA 検査

現実の問題を解くときに独立性が仮定されることは珍しくない。そういった仮定の多くは合理的であるものの、合理性に疑いが残る独立性の仮定からは正しいとは思えない帰結が導かれる場合がある。

第 18.2 節で触れた O. J. Simpson 裁判では事象の独立性に関する言及があった。次に示すのは 1995 年 5 月 15 日に行われた専門家証言の抜粋である:

Mr. Clarkeクラーク [検察官]: あなたは頻度の推定を示しましたが ── 独立性と呼ばれる概念に言及しましたね？

Dr. Cottonコットン [専門家証人]: はい、しました。

Mr. Clarke: それが何なのかもう一度説明してもらえますか？

Dr. Cotton: 独立性が意味するのは、ある対立遺伝子を一つ受け継ぐかどうかは、他の対立遺伝子を持つかどうかに影響しないということです。つまり、\(5000\) 番目の塩基対でバンドを受け継いだとしても、その事実が \(6000\) 番目の塩基対でバンドを受け継ぐかどうかを決める、あるいは受け継ぐ確率に影響を及ぼすことはありません。

Mr. Clarke: なぜ、それが重要なのですか？

Dr. Cotton: 数学的に重要です。独立性が無ければ、異なる遺伝子における頻度を乗じることは不適切になります。

Mr. Clarke: あなたはどうやって ── あの、そもそも、今回の事件であなたが行った検査で利用されたというマーカーは独立なのですか？

おそらく、この会話を聞いた当時の陪審員は現在の読者と同程度に困惑したことだろう。この裁判の陪審員には、事件現場で見つかった血液に含まれる \(5\) 個の遺伝マーカーが Simpson のものと合致したことが伝えられていた。さらに、それらのマーカーがランダムに選択された人物から見つかる確率が \(1\) 億 \(7000\) 万分の \(1\) という情報も与えられた。この天文学的な値は次のような統計から計算された:

マーカー \(A\) を持つのは \(100\) 人に \(1\) 人
マーカー \(B\) を持つのは \(50\) 人に \(1\) 人
マーカー \(C\) を持つのは \(40\) 人に \(1\) 人
マーカー \(D\) を持つのは \(5\) 人に \(1\) 人
マーカー \(E\) を持つのは \(170\) 人に \(1\) 人

これらの値を乗じれば、ランダムに選択された人物が \(5\) 個のマーカーを全て持つ確率が計算できる:

\[ \begin{aligned} \operatorname{Pr} [A \cap B \cap C \cap D \cap E] &= \operatorname{Pr} [A] \cdot \operatorname{Pr} [B] \cdot \operatorname{Pr} [C] \cdot \operatorname{Pr} [D] \cdot \operatorname{Pr} [E] \\ &= \frac{1}{100} \cdot \frac{1}{50} \cdot \frac{1}{40} \cdot \frac{1}{5} \cdot \frac{1}{170} = \frac{1}{170{,}000{,}000} \end{aligned} \]

弁護側は、この計算がマーカーの相互独立性を仮定している点を指摘した。また、それぞれのマーカーの統計は数百個の血液サンプルしか含んでいなかった。

裁判が終わった後、陪審員は DNA 検査という証拠を「理解」していなかったと広く批判された。もしあなたが陪審員だったら、上記の \(1\) 億 \(7000\) 万分の \(1\) の確率を受け入れるだろうか？

18.8.2 全組独立性

事象の集合の相互独立性の定義は恐ろしく複雑な見た目をしている ── 単元集合を除く全ての部分集合に対応する等式が成り立たなければならない！しかし次の例を見れば、事象が \(3\) 個以上あるときに独立性を扱う難しさが理解できるだろう。相互独立かつ公平な \(3\) 枚のコインを \(1\) 回ずつ投げたとする。三つの事象を次のように定める:

\(A_{1} = \) [コイン \(1\) の裏表がコイン \(2\) の裏表と一致する]
\(A_{2} = \) [コイン \(2\) の裏表がコイン \(3\) の裏表と一致する]
\(A_{3} = \) [コイン \(3\) の裏表がコイン \(1\) の裏表と一致する]

\(A_{1}\), \(A_{2}\), \(A_{3}\) が相互独立かどうかを考えよう。この試行の標本空間は次の集合である:

\[ \left\{ \texttt{HHH}, \texttt{HHT}, \texttt{HTH}, \texttt{HTT}, \texttt{THH}, \texttt{THT}, \texttt{TTH}, \texttt{TTT} \right\} \]

\(3\) 枚のコインが相互独立かつ公平という仮定より、どの結果も \((1/2)^{3} = 1/8\) の確率を持つ。

\(A_{1}\), \(A_{2}\), \(A_{3}\) が相互独立かどうかを確かめるには、定義に含まれる等式を一つずつ確認する必要がある。それぞれの事象 \(A_{i}\) の確率をまず計算しよう:

\[ \begin{aligned} \operatorname{Pr} [A_{1}] &= \operatorname{Pr} [\texttt{HHH}] + \texttt{Pr} [\texttt{HHT}] + \texttt{Pr} [\texttt{TTH}] + \texttt{Pr} [\texttt{TTT}] \\ &= \frac{1}{8} + \frac{1}{8} + \frac{1}{8} + \frac{1}{8} = \frac{1}{2} \end{aligned} \]

対称性より \(\operatorname{Pr}[A_{2}] = \operatorname{Pr}[A_{3}] = 1/2\) も分かる。続いて二つの事象の共通部分に関する等式の成立を確認する:

\[ \begin{aligned} \operatorname{Pr} [A_{1} \cap A_{2}] &= \operatorname{Pr}[\texttt{HHH}] + \operatorname{Pr}[\texttt{TTT}] \\ &= \frac{1}{8} + \frac{1}{8} = \frac{1}{4} = \frac{1}{2} \cdot \frac{1}{2} = \operatorname{Pr} [A_{1}] \cdot \operatorname{Pr} [A_{2}] \end{aligned} \]

ここでも対称性より \(\operatorname{Pr}[A_{2} \cap A_{3}] = \operatorname{Pr} [A_{2}] \cdot \operatorname{Pr} [A_{3}]\) と \(\operatorname{Pr}[A_{3} \cap A_{1}] = \operatorname{Pr} [A_{3}] \cdot \operatorname{Pr} [A_{1}]\) が分かる。ここまでは問題ない。では、最後の等式を確認しよう:

\[ \begin{aligned} \operatorname{Pr}[A_{1} \cap A_{2} \cap A_{3}] &= \operatorname{Pr}[\texttt{HHH}] + \operatorname{Pr} [\texttt{TTT}] = \frac{1}{8} + \frac{1}{8} = \frac{1}{4} \\ & {\color{red}{\neq}} \frac{1}{8} = \operatorname{Pr} [A_{1}] \cdot \operatorname{Pr} [A_{2}] \cdot \operatorname{Pr}[A_{3}] \end{aligned} \]

これは \(3\) 個の事象 \(A_{1}\), \(A_{2}\), \(A_{3}\) が相互独立でないことを示す。つまり任意の \(2\) 要素部分集合が相互独立でも全体としては相互独立でない \(3\) 要素集合が存在する！この事実は奇妙に思えるかもしれないが、現実に起こることである。一般的な概念に対する名前さえ存在する:

定義 18.8.1

事象 \(A_{1}, A_{2}, \ldots\) が \(k\) 次独立 (\(k\)-way independent) とは、その中の任意の \(k\) 個の事象が相互独立なことを意味する。\(2\) 次独立な事象の集合は全組独立 (pairwise independent) とも呼ばれる。

つまり事象 \(A_{1}\), \(A_{2}\), \(A_{3}\) は全組独立ではあるものの、相互独立ではない。全組独立は相互独立よりずっと弱い性質である。

例えば、O. J. Simpson 裁判の検察官が間違っていて、マーカー \(A\), \(B\), \(C\), \(D\), \(E\) が全組独立でしかなかったとしてみよう。このときランダムに選択された人物が \(5\) 個のマーカーを全て持つ確率は次の上界を持つ:

\[ \begin{aligned} \operatorname{Pr} [A \cap B \cap C \cap D \cap E] &\leq \operatorname{Pr} [A \cap E] = \operatorname{Pr} [A] \cdot \operatorname{Pr} [E]\\ &= \frac{1}{100} \cdot \frac{1}{170} = \frac{1}{17{,}000} \end{aligned} \]

最初の式変形は \(A \cap B \cap C \cap D \cap E\) が \(A \cap E\) の部分集合である事実から正当化される (\(A\) と \(E\) は最も確率が低い二つの事象として選択された)。二つ目の式変形で全組独立性が使われている。この評価からは、ランダムな合致の確率が \(17{,}000\) 人に \(1\) 人だと分かる ── \(1\) 億 \(7000\) 万人に \(1\) 人とは大きく異なる！全組独立性だけを仮定するとき、これより強い結論は得られない。

一方で、独立性を全く仮定しない場合と比べれば、全組独立性を仮定したときの上界 \(1/17{,}000\) は非常に優れている。例えば、マーカー \(A\), \(B\), \(C\), \(D\), \(E\) が独立性を持たないとき、次のような関係が成り立つかもしれない:

マーカー \(E\) を持つ人物は必ずマーカー \(A\) を持つ
マーカー \(A\) を持つ人物は必ずマーカー \(B\) を持つ
マーカー \(B\) を持つ人物は必ずマーカー \(C\) を持つ
マーカー \(C\) を持つ人物は必ずマーカー \(D\) を持つ

このシナリオでは、全てのマーカーがマッチする確率は \(\displaystyle \operatorname{Pr} [E] = 1/170\) となる。

つまり独立性の仮定を強めると、全てのマーカーが合致する確率の上界は小さくなる。このため「どこまで強い独立性を仮定するのが合理的か？」という質問の答えは非常に大きな意味を持つ。例えば、全てのマーカーが相互独立という仮定は、数億個の血液サンプルを調査しない限り合理的とは言い難いだろう。そうしないとき、ランダムに選択された人物がマーカー \(D\) を持つ確率が他の \(4\) 個のマーカーを全て持つ場合でも全く変わらないと言い切れる理由は何だろうか？