20.2 Chebyshev の定理

前節の最後で見たように、Markov の定理を確率変数 $R$ ではなく $R - b$ に適用すると得られる上界が改善する。一般に、賢く選んだ $R$ の関数に対して Markov の定理を適用すると優れた上界が得られる。特に有用な関数として「$R$ の絶対値の冪」が知られている。実数 $z$ に対して $|R|^{z}$ は非負なので、Markov の定理を使うと事象 [$|R|^{z} \geq x^{z}$] の確率に対する上界が得られる。$x$, $z$ が正の実数なら、この確率は事象 [$|R| \geq x$] の確率に等しい。

補題 20.2.1

任意の確率変数 $R$ と正実数 $x$, $z$ に対して、次の不等式が成り立つ:

\[ \operatorname{Pr} [|R| \geq x] \leq \frac{\operatorname{Ex} [|R|^{z}]}{x^{z}} \]

補題 20.2.1 を $|R - \operatorname{Ex} [R]|$ (確率変数 $R$ の期待値からの偏差) の形に書き直すと次の不等式となる:

\[ \operatorname{Pr} [|R - \operatorname{Ex} [R]| \geq x] \leq \frac{\operatorname{Ex} [(|R - \operatorname{Ex} [R]|)^{z}]}{x^{z}} \tag{20.3}\]

$z$ が正の偶数なら $(R - \operatorname{Ex} [R])^{z}$ は非負なので、不等式 $\text{(20.3)}$ の右辺にある絶対値は不要となる。$z = 2$ とした場合の右辺の分子にある値は非常に重要なので名前が付いている:

定義 20.2.2

確率変数 $R$ の分散 (variance) $\operatorname{Var} [R]$ は次のように定義される:

\[ \operatorname{Var} [R] ::= \operatorname{Ex} [(R - \operatorname{Ex} [R])^{2}] \]

分散は平均二乗偏差 (mean square deviation) とも呼ばれる。

$z = 2$ とした不等式 $\text{(20.3)}$ にも名前が付いている:

定理 20.2.3[Chebyshevチェビシェフの定理 (Chebyshev's theorem)]

任意の確率変数 $R$ と実数 $x > 0$ に対して、次の不等式が成り立つ:

\[ \operatorname{Pr} [\left| R - \operatorname{Ex} [R] \right| \geq x] \leq \frac{\operatorname{Var} [R]}{x^{2}} \]

分散の定義式 $\operatorname{Ex} [(R - \operatorname{Ex} [R])^{2}]$ が分かりにくいと感じたら、内側から理解するとよい。最も内側にある $R - \operatorname{Ex} [R]$ は $R$ の期待値からの偏差そのものを表す。これを二乗すると $(R - \operatorname{Ex} [R])^{2}$ となる。これは $R$ が期待値に近い値を取るなら小さくなり、期待値から遠い値を取るなら非常に大きくなる確率変数である。もし $R$ が常に期待値と同じような値を取るなら、$R$ の分散は小さくなる。逆に $R$ が期待値から離れた値を頻繁に取るなら、$R$ の分散は大きくなる。

20.2.1 二つのゲームの分散

分散の理解を深めるために、次の二つのゲームを考える:

ゲーム A: 確率 $2/3$ で $\$2$ を獲得し、確率 $1/3$ で $\$1$ を失う。
ゲーム B: 確率 $2/3$ で $\$1002$ を獲得し、確率 $1/3$ で $\$2001$ を失う。

経済的に優れているのはどちらだろうか？勝率は $2/3$ で変わらないものの、それだけでゲームの良し悪しは分からない。期待収益を計算してみよう。それぞれのゲームに参加して得られる収益を表す確率変数を $A$, $B$ とする。例えば $A$ は確率 $2/3$ で $2$ となり、確率 $1/3$ で $-1$ となる確率変数である。$A$ と $B$ の期待値は次のように計算できる:

\[ \begin{aligned} \operatorname{Ex} [A] &= 2 \cdot \frac{2}{3} + (-1) \cdot \frac{1}{3} = 1 \\ \operatorname{Ex} [B] &= 1002 \cdot \frac{2}{3} + (-2001) \cdot \frac{1}{3} = 1 \\ \end{aligned} \]

期待収益は一致すると分かった。しかし、二つのゲームはどう見ても大きく異なる。両者の違いは期待収益ではなく分散を考えると明らかになる。$\operatorname{Var} [A]$ を「内側から」計算する手順を示す:

\[ \begin{align*} A - \operatorname{Ex} [A] &= \begin{cases} 1 & (\text{確率 $2/3$} ) \\ -2 & (\text{確率 $1/3$} ) \end{cases} \\ (A - \operatorname{Ex} [A])^{2} &= \begin{cases} 1 & (\text{確率 $2/3$} ) \\ 4 & (\text{確率 $1/3$} ) \end{cases} \\ \operatorname{Ex} [(A - \operatorname{Ex} [A])^{2}] &= 1 \cdot \frac{2}{3} + 4 \cdot \frac{1}{3} \\ \operatorname{Var} [A] &= 2 \end{align*} \]

同様に $\operatorname{Var} [B]$ は次のように計算できる:

\[ \begin{aligned} B - \operatorname{Ex} [B] &= \begin{cases} 1001 & (\text{確率 $2/3$} ) \\ -2002 & (\text{確率 $1/3$} ) \end{cases} \\ (B - \operatorname{Ex} [B])^{2} &= \begin{cases} 1{,}002{,}001 & (\text{確率 $2/3$} ) \\ 4{,}008{,}004 & (\text{確率 $1/3$} ) \end{cases} \\ \operatorname{Ex} [(B - \operatorname{Ex} [B])^{2}] &= 1{,}002{,}001 \cdot \frac{2}{3} + 4{,}008{,}004 \cdot \frac{1}{3} \\ \operatorname{Var} [B] &= 2{,}004{,}002 \end{aligned} \]

$A$ の分散は $2$ でしかないのに対して、$B$ の分散は $200$ 万を超える！直感的に言えば、これはゲーム A では収益が期待値 $\$1$ に近い値となる可能性が高く、ゲーム B では収益が期待値 $\$1$ から遠く離れた値となる可能性が高いことを意味する。

大きな分散はしばしば高いリスクを表す。例えば、ゲーム A を $10$ 回遊んだときの期待収益は $\$10$ であり、最悪の場合には $\$10$ を失う。しかしゲーム B では、$10$ 回遊んだときの期待収益は $\$10$ で変わらないものの、最悪の場合に失う可能性のある額は $\$20{,}000$ に達する！

20.2.2 標準偏差

上記のゲーム B において平均からの偏差は $1001$ または $-2002$ である。これに対して分散は $2{,}004{,}002$ と非常に大きな値になる。この現象が起きるのは、分散の「単位」が異なるためである: 確率変数の単位がドルのとき、期待値の単位は同じくドルになる。しかし分散の単位はドル二乗になる。このため、確率変数の変動を表現するときは分散ではなく次の標準偏差 (standard deviation) が使われる場合が多い:

定義 20.2.4

確率変数 $R$ の分散の平方根を標準偏差 (standard deviation) と呼び、$\sigma_{R}$ と表す:

\[ \sigma_{R} ::= \sqrt{\operatorname{Var} [R]} = \sqrt{\operatorname{Ex} [(R - \operatorname{Ex} [R])^{2}]} \]

つまり標準偏差は平均二乗偏差の平方根に等しい。この値は平方根平均二乗偏差 (root mean square deviation) とも呼ばれる。標準偏差は確率変数 $R$ および期待値と同じ単位 ── 上記の例ではドル ── を持つ。直感的には、標準偏差は期待値からの平均的な偏差を表す: 内側の二乗と外側の平方根が打ち消し合うと考えることができる。

例 20.2.5

ゲーム B の期待収益の標準偏差は次のように計算できる:

\[ \sigma_{B} = \sqrt{\operatorname{Var} [B]} \sqrt{2{,}004{,}002} \approx 1416 \]

実際には確率変数 $B$ の取る値の期待値からの偏差は $1001$ または $-2002$ である。$200$ 万を超える分散よりも、標準偏差 $1416$ の方がこの状況を正確に捉えている。

確率密度関数をプロットした曲線の「幅」と標準偏差 \sigma には関係がある。 — 図 20.1確率密度関数をプロットした曲線の「幅」と標準偏差 $\sigma$ には関係がある。

確率変数の確率密度関数のプロットが図 $\text{20.1}$ のような釣鐘型の曲線になるとき、その標準偏差は中央部分の「幅」に対応する。この事実は標準偏差を使って Chebyshev の定理を書き直すと分かりやすくなる。定理 20.2.3 で $x = c \sigma_{R}$ とすれば次の系を得る:

系 20.2.6

任意の確率変数 $R$ と正の実数 $c$ に対して、次の不等式が成り立つ:

\[ \operatorname{Pr} [\left| R - \operatorname{Ex} [R] \right| \geq c \sigma_{R}] \leq \frac{1}{c^{2}} \tag{20.4}\]

不等式 $\text{(20.4)}$ を見ると、$\operatorname{Ex} [R]$ を中心とする幅が $O(\sigma_{R})$ の領域に $R$ の「可能性の高い」値が集まっていると分かる。これは標準偏差が「$R$ の値の分布が期待値を中心としてどれだけ遠くに散らばっているか」を表す事実を裏付けている。

IQ を使った例

IQ の標準偏差は多くの調査で $15$ 程度となる。これと IQ の平均値が $100$ である事実を使えば、IQ が $300$ を超える人口の割合をさらに正確に推定できる。

ランダムに選択された人物の IQ を表す確率変数を $R$ とする。このとき $\operatorname{Ex} [R] = 100$ および $\operatorname{Var} [R] = 225$ であり、さらに $R$ は非負である。ここから $\operatorname{Pr} [R \geq 300]$ を求めよう。

第 20.1 節の冒頭で見たように、Markov の定理 (定理 20.1.1) を直接使うと次の粗い上界が得られる:

\[ \operatorname{Pr} [R \geq 300] \leq \frac{1}{3} \]

同じ問題に Chebyshev の定理 (定理 20.2.3) を適用すると、次の不等式が得られる:

\[ \operatorname{Pr} [R \geq 300] = \operatorname{Pr} [\left| R - 100 \right| \geq 200] \leq \frac{\operatorname{Var} [R]}{200^{2}} = \frac{15^{2}}{200^{2}} \approx \frac{1}{178} \]

つまり Chebyshev の定理は、$300$ 以上の IQ を持つ人物は最大でも $178$ 人に $1$ 人だと示している。期待値に加えて分散 $R$ という新たな情報が得られたので、ずっと小さな上界を得ることができた。