勉強 数学 機械学習/AI

機械学習で使う確率論の基礎、確率の加法・乗法定理、ベイズの定理など

2023年4月11日

今回の記事は確率論の基礎を語る。

パターン認識の分野において非常に重要な概念が不確実性である。それは計測ノイズやデータ集合のサイズが有限だからであった。

確率論によって不確実性に関する定量化と操作をすることができるようになり、パターン認識延いては機械学習の中心的な役割を担っている。

 

しかしながら、それほど構える必要もない。パターン認識問題に対して必要な確率な知識は確率の加法定理と確率の乗法定理のみである。

まずはそれを理解していこう。

 

確率の加法定理

まず、確率の加法定理について説明する。

二つの確率変数\(X,Y\)を用意する。\(X\)は任意の値\(x_{i}( i= 1,\ldots ,M)\)を、\(Y\)も任意の値\(y_{j}( i= 1,\ldots ,L)\)を取れるものとする。

ここで同時確率という単語を導入する

同時確率とは、複数の確率変数が特定の値を同時に取る確率のことを指す。例えば、2つの確率変数\(X\)と\(Y\)があり、それぞれが\(x_i\)と\(y_j\)という値を同時に取る確率を求める場合、これを同時確率と呼ぶ。同時確率は以下のように表記される。

$$ p(X=x_i, Y=y_j) $$

加法定理は、\(X\)が\(x_i\)を取る確率\(p(X=x_i)\)を、それぞれの\(Y\)の値\(y_j\)に関しての同時確率の和で表現できることを意味する。数式で表すと、以下のようになる。

確率の加法定理

$$ p(X=x_i) = \sum_{j=1}^{L} p(X=x_i, Y=y_j) $$

 

ここで、周辺確率とは何かを説明する。周辺確率とは、同時確率から特定の変数についての確率を求めることである。例えば、\(X=x_i\)が発生する確率を求めたいとき、これは全ての\(Y\)の値\(y_j\)について、\(X\)が\(x_i\)である同時確率の和となる。つまり、周辺確率は加法定理によって求められる。

 

では、加法定理の証明に移ろう。

話を整理しやすくするために、この図を参考にしてほしい。

この図は確率変数の\(X\)は\(x_{i}( i= 1,\ldots ,5)\)を、\(Y\)は\(y_{j}( i= 1,\ldots ,3)\)とるとした場合のもので、それぞれ対応する枠の中に事例の総数\(N\)のうち\(X=x_i, Y=y_j\)であるものの数\(n_{ij}\)が入る。

図の\(i\)列は\(X=x_{i}\)に対応し、その数が\(c_{i}\)である。つまりは、\(c_i = \sum_{j=1}^{L} n_{ij} \)ということで

同様に、\(j\)行は\(Y=y_{j}\)に対応し、入る点の数は\(r_{j}\)である。

 

試行回数\(N\)を用いて、同時確率は以下のように表すことができる。

$$ p(X=x_i, Y=y_j) = \frac{n_{ij}}{N} $$

また、\(X\)が\(x_i\)を取る試行の回数を\(c_i\)とすると、\(X\)が\(x_i\)を取る周辺確率\(p(X=x_i)\)は次のように表すことができる。

$$ p(X=x_i) = \frac{c_i}{N} $$

ここで、\(i\)列の事例数は単にその列にある枠内の事例数の総和だから、\(p(X=x_i)\)を求めるためには、全ての\(Y\)の値\(y_j\)に関する同時確率の和を計算すればよい。

$$ p(X=x_i) = \sum_{j=1}^{L} p(X=x_i, Y=y_j) = \sum_{j=1}^{L} \frac{n_{ij}}{N} $$

左辺と右辺の式から、次のようになる。

$$ \frac{c_i}{N} = \sum_{j=1}^{L} \frac{n_{ij}}{N} $$

両辺に\(N\)をかけて整理すると、

$$ c_i = \sum_{j=1}^{L} n_{ij} $$

これは、前提条件なので確率の加法定理が証明された。

 

確率の乗法定理

次に、確率の乗法定理を考える。そのためにまず条件付き確率というものについて思い出そう

条件付き確率とは、\(X=x_{i}\)の事例だけを考えて、その中での\(Y=y_{j}\)の事例の比率のことで

\(X=x_i\)が与えられた条件下での\(Y=y_j\)の条件付き確率\(p(Y=y_j | X=x_i)\)と書くことができる。

 

先の図で考えるとこれは\(i\)列の点の\(i,j\)の枠内にある点の数の比率であることより。

  1. \(X=x_i\)が与えられた条件下での\(Y=y_j\)の条件付き確率は、\(X=x_i\)である試行のうち\(Y=y_j\)となる試行の割合となる。この割合は\(n_{ij} / c_i\)で表すことができる。つまり、
$$ p(Y=y_j|X=x_i) = \frac{n_{ij}}{c_i} $$

  1. \(X\)が\(Y\)と無関係に\(x_i\)を取る確率\(p(X=x_i)\)は、全試行のうち\(X=x_i\)となる試行の割合となる。この割合は\(c_i / N\)で表すことができる。つまり、
$$ p(X=x_i) = \frac{c_i}{N} $$

これらを使って、同時確率を求める。

$$ p(X=x_i, Y=y_j) = p(Y=y_j|X=x_i) p(X=x_i) = \frac{n_{ij}}{c_i} \cdot \frac{c_i}{N} = \frac{n_{ij}}{N} $$

 

よって

$$p(X=x_i, Y=y_j) = p(Y=y_j | X=x_i)p(X=x_i)$$

これが確率の乗法定理である。

確率の乗法定理

$$p(X=x_i, Y=y_j) = p(Y=y_j | X=x_i)p(X=x_i)$$

 

単純化して整理すると。

確率の基本定理

加法定理

$$p\left( x\right) =\sum _{y}p\left( X,Y\right)$$

乗法定理

$$p\left( X,Y\right) =p\left( Y| X\right) p\left( X\right)$$

この二つの単純な法則は機械学習、パターン認識に通じて行う全ての確率計算の基礎となる。

 

ベイズの定理

以上から、加法定理と乗法定理を使ってベイズの定理を導出する。

ベイズの定理は、\(X=x_i\)が与えられた条件下での\(Y=y_j\)の条件付き確率\(p(Y=y_j | X=x_i)\)を求めるための式である。そこで、乗法定理と対称性\(p(Y=y_j , X=x_i) =p(X=x_i,Y=y_j)\)が成り立つことから次の式がすぐに分かる。

$$p(Y=y_j | X=x_i) = \frac{p(X=x_i | Y=y_j)p(Y=y_j)}{p(X=x_i)}$$

これがベイズの定理である

ベイズの定理

$$p(Y | X) = \frac{p(X| Y)p(Y)}{p(X)}$$

 

分母\(p(X=x_i)\)は、加法定理を用いて以下のように表せる。

$$p(X=x_i) = \sum_{j=1}^{L} p(X=x_i, Y=y_j)$$

これを乗法定理で表すと、

$$p(X=x_i) = \sum_{j=1}^{L} p(X=x_i | Y=y_j)p(Y=y_j)$$

最終的にベイズの定理は以下のようになる。

$$p(Y=y_j | X=x_i) = \frac{p(X=x_i | Y=y_j)p(Y=y_j)}{\sum_{j=1}^{L} p(X=x_i | Y=y_j)p(Y=y_j)}$$

ベイズの定理は、ある事象\(X\)が与えられた条件下で、別の事象\(Y\)の確率を求める際に用いられる。この式は、前提条件\(X\)が与えられたもとで、事象\(Y\)の確率を求める際に用いられる。この式は、事象\(Y\)が発生する確率\(p(Y=y_j)\)、\(Y=y_j\)が与えられた条件下で\(X=x_i\)が発生する確率\(p(X=x_i | Y=y_j)\)、そして事象\(X\)が発生する確率\(p(X=x_i)\)を用いて、\(X=x_i\)が与えられた条件下で\(Y=y_j\)が発生する確率\(p(Y=y_j | X=x_i)\)を計算することができる。つまり、条件付き確率を逆転させて求めることが可能となる。

ベイズの定理は、観測データや事象に基づいて、ある仮説や未知の事象の確率を更新する際に非常に役立つ。例えば、病気の診断やスパムメールの検出など、様々な分野で応用されている。

 

確率論の概念を単純な例を使って確認

さてこれまでの確率の加法定理、乗法定理、ベイズの定理を単純な問題を使って確認していこう。

赤と青の二つの箱があって、赤の箱にはりんごが2個とオレンジが6個、青の箱にはリンゴが3個とオレンジが1個入っている。

箱を一つまずランダムに選んだあと、果物をランダムに1個取り出すという操作を考える。

その際、赤の箱を40%、青の箱を60%で選び、箱の中の果物は同じ確からしさであるとする。

 

この場合、どの箱を選ぶかがまず確率変数であり\(B\)と表すことにする。この変数は\(r\)(赤い箱)か\(b\)(青い箱)の値を取る。

同様にどの果物かを選ぶかも確率変数であり\(F\)で表すことにする。この変数は\(a\)(りんご)か\(o\)(オレンジ)の値を取る。

 

まずは、条件付き確率を求める。

  1. 赤い箱が選ばれたときにリンゴを選ぶ確率: $$ p(F=a|B=r) = \frac{2}{8} = \frac{1}{4} $$
  2. 赤い箱が選ばれたときにオレンジを選ぶ確率: $$ p(F=o|B=r) = \frac{6}{8} = \frac{3}{4} $$
  3. 青い箱が選ばれたときにリンゴを選ぶ確率: $$ p(F=a|B=b) = \frac{3}{4} $$
  4. 青い箱が選ばれたときにオレンジを選ぶ確率: $$ p(F=o|B=b) = \frac{1}{4} $$

確率が規格化されていることを示すために、それぞれの条件で確率の和を計算する。
赤い箱が選ばれたときの確率の和:\( p(F=a|B=r) + p(F=o|B=r) = \frac{1}{4} + \frac{3}{4} = 1 \)
青い箱が選ばれたときの確率の和:\( p(F=a|B=b) + p(F=o|B=b) = \frac{3}{4} + \frac{1}{4} = 1 \)

次に、ベイズの定理を使って、オレンジを選んだ条件の下で赤い箱を選んでいる条件付き確率を求める。 ベイズの定理の式は以下の通りである。

$$ p(B=r|F=o) = \frac{p(F=o|B=r) p(B=r)}{p(F=o)} $$

 

まず、事前確率を求める。

赤い箱が選ばれる確率: \( p(B=r) = 0.4 \)
青い箱が選ばれる確率: \(p(B=b) = 0.6 \)

次に、オレンジを選ぶ確率を求める。 オレンジを選ぶ確率は、赤い箱と青い箱のどちらから選んでも、オレンジが選ばれる確率の和で求められる。

$$ p(F=o) = p(F=o|B=r)p(B=r) + p(F=o|B=b)p(B=b) $$

これに先ほど求めた条件付き確率と事前確率を代入する。

$$ p(F=o) = \frac{3}{4} \times 0.4 + \frac{1}{4} \times 0.6 = \frac{3}{10} + \frac{3}{20} = \frac{9}{20} $$

これで全ての必要な確率が揃ったので、ベイズの定理の式に代入して、オレンジを選んだ条件の下で赤い箱を選んでいる条件付き確率を求める。

$$ p(B=r|F=o) = \frac{p(F=o|B=r) p(B=r)}{p(F=o)} = \frac{(\frac{3}{4} \times 0.4)}{\frac{9}{20}} = \frac{6}{9} = \frac{2}{3} $$

結果として、オレンジを選んだ条件の下で赤い箱を選んでいる条件付き確率は2/3である。

事前確率と事後確率について解説する事前確率とは、観測データや結果が得られる前に、ある事象が起こる確率である。この例では、赤い箱が選ばれる確率が0.4、青い箱が選ばれる確率が0.6である。

事後確率とは、観測データや結果が得られた後に、ある事象が起こる確率を更新したものである。この例では、オレンジを選んだ条件の下で赤い箱を選んでいる条件付き確率が2/3である。

今回の場合、赤い箱を選ぶ事前確率は4/10で、赤い箱より青い箱が選ばれやすいが、今見たように一旦選んだ果物がオレンジだとわかれば赤い箱の事後確率が2/3で選んだ箱が赤である確率の方が高くなる。これは直感的には赤い箱の方が青い箱よりもオレンジの比率が大きいので、オレンジを観測したときにそれが赤い箱のものであるという証拠が強いものになると考えればいい。

因みに2つの変数の同時分布が周辺分布の積に分解できるとき、すなわち\(p\left( X,Y\right) =p\left( X\right) p\left( Y\right)\)となるときXとYは独立であるという。

 

連続変数での確率

確率密度

これまでは離散的な事象集合に対して定義される確率を考えてきたが、連続変数についても確率を考えてみよう

連続確率分布において、確率変数が連続的な値を取るため、確率は確率密度関数として表される確率密度関数とは、連続変数がある範囲に含まれる確率を表すために用いられる関数である。

確率密度関数\(p(x)\)は以下の性質を持つ。

  1. 非負である:\(p(x) \ge 0\) すべての\(x\)に対して成り立つ。
  2. 確率の総和が1である:\(\int_{-\infty}^{\infty} p(x) dx = 1\)

連続変数がある区間\([a, b]\)に含まれる確率は、その区間で確率密度関数を積分した値となる。

$$p(a \le x \le b) = \int_{a}^{b} p(x) dx$$

連続確率分布においては、確率変数がある特定の値をとる確率はゼロであることに注意が必要だ。これは、連続変数が無限に多くの値をとりうるため、特定の1点における確率はゼロになる。

つまり、確率密度は、ある確率変数が特定の値の近くにある確率を表す関数である。連続確率変数の場合、確率密度関数によって、ある範囲における確率を計算できる。

 

変数変換

次に、変数変換について説明する。変数変換とは、ある変数を別の変数に変換することである。この場合、変換前の確率密度と変換後の確率密度は、どのように関連しているのだろうか? それがこの説明の主題である。

連続変数\(x\)上で定義された確率密度\(p_x(x)\)があり、非線形変換\(x=g(y)\)によって新しい変数\(y\)に変換されるとする。ここで、\(x\)と\(y\)は1対1で対応していると仮定する。このとき、\(y\)に関する新しい確率密度\(p_y(y)\)を求める方法を見ていく。

まず、\(y=g^{-1}(x)\)によって\(y\)を\(x\)の関数として表す。次に、確率密度関数の性質から、ある小さな区間\([y, y+\delta y]\)の確率は、\(x\)における区間\([x, x+\delta x]\)の確率と等しいことが言える。非負性を保証するために絶対値をつけて

$$ p_y(y)| \delta y| = p_x(x)| \delta x| $$

この式を\(p_y(y)\)について解くと、

$$ p_y(y) = p_x(x)| \frac{\delta x}{\delta y} |$$

ここから

$$ p_y(y) = p_x(x) |\frac{dx}{dy} |$$

が言える

ここで、\(\frac{dx}{dy}\)はヤコビアンと呼ばれる。ヤコビアンは、非線形変換の際に、変換前の空間の座標と変換後の空間の座標の関係を表す。ヤコビアンを求めるには、\(g(y)\)の微分をとる。

$$ J(y) = \frac{d g(y)}{dy} $$

ヤコビアン\(J(y)\)を求めた後、新しい確率密度\(p_y(y)\)を計算する。

$$ p_y(y) = p_x(g(y)) |J(y)| $$

ここで、\(|\)記号は絶対値を表す。この式から分かるように、変数に非線形変換を施すと、確率密度はヤコビアンによって単純な関数とは異なる方法で変換される。

以上の説明により、非線形変換\(x=g(y)\)が与えられたとき、新しい変数\(y\)に関する新しい変数\(y\)に関する確率密度\(p_y(y)\)を求める方法が説明できた。ヤコビアン\(J(y)\)は、非線形変換の局所的な拡大や縮小の度合いを示す。そのため、確率密度関数もヤコビアンによって変換される。

例として、\(x=y^2\)という非線形変換を考えてみる。この場合、\(y=g^{-1}(x) = \sqrt{x}\)となる。次に、\(g(y)\)の微分をとってヤコビアン\(J(y)\)を求める。

$$ J(y) = \frac{d g(y)}{dy} = \frac{d (\sqrt{x})}{dy} = \frac{1}{2\sqrt{x}} = \frac{1}{2\sqrt{y^2}} = \frac{1}{2|y|} $$

このヤコビアンを用いて、新しい確率密度\(p_y(y)\)を計算する。

$$ p_y(y) = p_x(g(y)) |J(y)| = p_x(y^2) \left|\frac{1}{2|y|}\right| $$

 

累積分布確率

では、累積分布関数\(P(z)\)について考えていく。連続確率変数\(x\)に対する確率密度関数を\(p(x)\)とし、\(x\)がある値\(z\)以下になる確率を求めたい場合、以下のように累積分布関数\(P(z)\)を定義する。

【定義】累積分布関数

$$ P(z) = \int_{-\infty}^{z} p(x) dx $$

ここで、\(p(x)\)は確率密度関数であり、累積分布関数\(P(z)\)は\(p(x)\)を\(-\infty\)から\(z\)まで積分することによって得られる。

 

次に、累積分布関数と確率密度関数の関係を確認する。累積分布関数\(P(x)\)を\(x\)について微分すると、確率密度関数\(p(x)\)が得られる。

$$ \frac{dP(x)}{dx} = p(x) $$

この関係性は、連続確率変数に対する確率分布を理解する上で重要である。累積分布関数は、確率変数がある値以下になる確率を表し、確率密度関数は、その確率変数が特定の範囲内にある確率を計算するために使用される。

 

そして離散変数の時はp(x)は確率質量関数と言われている。離散変数の場合は連続のxの取り得る値のところに「確率の質量」が集中していると考えることができるからである。

なお、連続確率変数と離散確率変数の両方において、累積分布関数は以下の性質を持つ。

  1. $$ 0 \leq P(z) \leq 1 $$
  2. $$ P(-\infty) = 0 $$
  3. $$ P(\infty) = 1 $$

そして、連続変数においても確率の加法定理、乗法定理は同様に適応可能でありx,yを2つの実変数として

$$p\left( x\right) =\int p\left( x,y\right) dy$$

$$p\left( x,y\right) =p\left( y| x\right) p\left( x\right)$$

がなりたつ。これの厳密な証明は測度論が必要なるので、一旦省略する。

 

 

期待値と分散

期待値

期待値は、ある関数\(f(x)\)の確率分布\(p(x)\)に基づく「平均」の値を表す。期待値は、確率変数が取りうる各値に対して、その値に対応する確率と関数\(f(x)\)の値の積を総計することで求められる。期待値は以下のように定義される。

【定義】期待値

連続確率変数の場合: $$ E[f(x)] = \int_{-\infty}^{\infty} f(x)p(x) dx $$

離散確率変数の場合: $$ E[f(x)] = \sum_{i=1}^{n} f(x_i)P(x_i) $$

期待値の計算には、確率密度関数\(p(x)\)(連続変数)または確率質量関数\(P(x_i)\)(離散変数)が必要である。

実際には、確率分布や確率密度から得られた有限個の\(N\)点を用いて、期待値はこれらの点での有限和で近似できる。この場合、期待値は以下のように表現できる。

$$ E[f(x)] \approx \frac{1}{N} \sum_{i=1}^{N} f(x_i) $$

ここで、\(x_i\)は確率分布または確率密度から得られた有限個の点である。この近似により、期待値の計算が容易になる場合がある。例えば、実験データやシミュレーション結果などから期待値を推定する際には、この方法が有用である。

この近似法は、サンプルサイズ\(N\)が大きくなるにつれて、真の期待値に近づくことが期待できる。この性質は、大数の法則と呼ばれる統計学の基本的な法則に関連している。大数の法則とは、独立で同一の確率分布に従うデータが増えるほど、そのデータの平均値が期待値に近づくという法則である。ここで、「独立」とは、データ間に相互作用や影響がないことを意味し、「同一の確率分布に従う」とは、データが同じ確率分布から抽出されていることを意味する。

 

条件付き期待値とは、ある条件が与えられたもとでの期待値を意味する。具体的には、ある変数の値が既知である場合に、もう一つの変数に対する期待値を計算する。多変数関数\(f(x, y)\)に対して、条件付き期待値は以下のように定義される。

【定義】条件付き期待値

連続確率変数の場合: $$ E_x[f(x,y)|y] = \int_{-\infty}^{\infty} f(x,y)p(x|y) dx $$

離散確率変数の場合: $$ E_x[f(x,y)|y] = \sum_{i=1}^{n} f(x_i,y)P(x_i|y) $$

ここで、\(p(x|y)\)は条件付き確率密度関数(連続変数)、\(P(x_i|y)\)は条件付き確率質量関数(離散変数)を表す。これらの関数は、変数\(y\)が与えられた条件下での変数\(x\)の確率分布を表す。

条件付き期待値は、\(y\)が固定されているときの、関数\(f(x, y)\)に対する\(x\)の期待値を示す。これにより、変数の一部が既知である場合でも、残りの変数に対する期待値を求めることができる。

分散

分散とは、ある確率変数がその平均値からどれくらい散らばっているかを示す指標である。分散を求めるためには、確率変数の各値が平均からどれだけ離れているかを計算し、それらの二乗和を平均する。変数\(x\)とその確率分布\(p(x)\)に対する関数\(f(x)\)の分散\(Var[f(x)]\)は、以下のように定義される。

【定義】分散

$$ Var[f(x)] = E_x\Bigl[\bigl(f(x) - E_x[f(x)]\bigr)^2\Bigr] $$

これを展開すると、次のように表すことができる。

$$ Var[f(x)] = E_x[f(x)^2] - \Bigl(E_x[f(x)]\Bigr)^2 $$

分散の展開

この展開の説明は以下の通りである。

  1. 分散の定義より、次のように書ける。
$$ Var[f(x)] = E_x\Bigl[\bigl(f(x) - E_x[f(x)]\bigr)^2\Bigr] $$

  1. \(f(x)\)の二乗を展開する。
$$ Var[f(x)] = E_x[f(x)^2 - 2f(x)E_x[f(x)] + \Bigl(E_x[f(x)]\Bigr)^2] $$

  1. 期待値の線型性を用いて、各項を分解する。線形性であることと\(E_x[f(x)]\)は定数であることに注意すると
$$ Var[f(x)] = E_x[f(x)^2] - 2E_x[f(x)]E_x[f(x)] + E_x\Bigl[\Bigl(E_x[f(x)]\Bigr)^2\Bigr] $$

  1. 最後の項は定数項(\(E_x[f(x)]\)の二乗)であるため、期待値を取るとそのままの値が得られる。
$$ Var[f(x)] = E_x[f(x)^2] - 2\Bigl(E_x[f(x)]\Bigr)^2 + \Bigl(E_x[f(x)]\Bigr)^2 $$

  1. 式を整理する。
$$ Var[f(x)] = E_x[f(x)^2] - \Bigl(E_x[f(x)]\Bigr)^2 $$

この結果より、分散は関数\(f(x)\)の二乗の期待値から、関数\(f(x)\)の期待値の二乗を引いたものであることが分かる。分散は、関数の値が平均からどれだけ散らばっているかを表す重要な統計量であり、データのばらつきや信頼性を評価する際に使用される。

 

共分散

共分散は、2つの確率変数\(x\)と\(y\)の関連性を表す指標で、定義は次のようになる。

【定義】共分散

$$\mathrm{Cov}[x, y] = E_{x,y}[(x - E[x])(y - E[y])]$$

共分散は、\(x\)と\(y\)がどれくらい同じ方向に変化するかを示す。共分散が正であれば、\(x\)が増加すると\(y\)も増加し、\(x\)が減少すると\(y\)も減少する傾向がある。共分散が負であれば、\(x\)が増加すると\(y\)は減少し、\(x\)が減少すると\(y\)は増加する傾向がある。

xとyが独立な場合を考える

\(x\)と\(y\)が独立な場合、共分散は0になることを示そう。\(x\)と\(y\)が独立であると、次の条件が成り立つ。

$$p(x, y) = p(x)p(y)$$

ここで、\(p(x, y)\)は同時確率密度関数、\(p(x)\)と\(p(y)\)はそれぞれの確率密度関数である。

共分散の式に戻って、独立性を用いて計算を行う。

$$\mathrm{Cov}[x, y] = E_{x,y}[(x - E[x])(y - E[y])] = \iint (x - E[x])(y - E[y]) p(x, y) \mathrm{d}x\mathrm{d}y$$

独立性の条件を適用し、積分を分解する。

$$= \iint (x - E[x])(y - E[y]) p(x)p(y) \mathrm{d}x\mathrm{d}y$$

$$= \int (x - E[x]) p(x) \mathrm{d}x \cdot \int (y - E[y]) p(y) \mathrm{d}y$$

ここで、\(\int (x - E[x]) p(x) \mathrm{d}x\)を考える

改めて、期待値\(E[x]\)の定義\(E[x] = \int x p(x) dx\)より

$$ \int x p(x) dx - E[x] \int p(x) dx$$

この式の第一項は、\(x\)の期待値\(E[x]\)であり、第二項の積分\(\int p(x) dx\)は、確率密度関数\(p(x)\)を\(x\)について積分した値であり、確率の性質から1である。

よって、この式は次のようになる。

$$E[x] - E[x] \times 1 = E[x] - E[x] = 0$$

この結果から、確率変数\(x\)から期待値\(E[x]\)を引いたものの期待値は0であることが分かる。これは、期待値が確率変数の「平均」を示すため、\(x\)からその平均を引いた値の平均は0になるという直感的な理解にも合致する。

よって同様に、\(\int (y - E[y]) p(y) \mathrm{d}y\)も0である。

以上から、独立な\(x\)と\(y\)に対して、

$$\mathrm{Cov}[x, y] = 0$$

 

 

となり、独立な確率変数\(x\)と\(y\)の共分散は0になることが示された。つまり、独立な確率変数の共分散が0であることは、それらの変数が互いに関連性を持っていないことを意味する。ただし、共分散が0であることが必ずしも独立性を意味するわけではないことに注意してほしい。共分散が0であっても、確率変数\(x\)と\(y\)が非線形に相関している場合がある。

例えば、\(x\)と\(y\)が次のような関係であるとする。

$$y = x^2$$

この場合、共分散は0になるが、明らかに\(x\)と\(y\)は関連している。このように、共分散が0である場合でも、確率変数が関連している可能性があるため、独立性を確認する際には注意が必要である。

独立性の検証には他の方法も存在し、例えば相互情報量を用いた方法などがある。相互情報量は、2つの確率変数間の相関をより一般的に捉えることができる指標である。

以上をまとめると、共分散は確率変数間の関連性を示す指標であるが、共分散が0であっても、確率変数が非線形に関連している可能性がある。独立性を確認する際には、他の指標や方法も併用することが望ましい。

 

まとめ

確率論の基礎についてまとめた記事であったが、これは今後の機械学習、パターン認識の学習においてどこまでも付きまとう非常に重要な概念である。

なのですごく丁寧に書いた。なんならちょっと冗長気味な部分もあったと思うが、ここは丁寧すぎるぐらいがちょうどよいと思いそうした。

読みにくい部分があったら申し訳ない。

次からはいよいよベイズ確率に入っていくのでいよいよって感じだ。

 

参考文献

 

 

-勉強, 数学, 機械学習/AI
-, ,