勉強 数学 機械学習/AI

一次元ガウス分布徹底解説~いろんな性質とその証明、不偏推定量~

2023年4月25日

 

この記事では、ガウス分布というデータ解析の基本となる確率分布を解説していく。

実は、ガウス分布は自然界にもたくさん出てくるので、それを理解することで現象をより深く理解することができるのだ。

さらに、最尤推定という手法を使ってデータから推定を行う方法も紹介する。

なるべくどうしてそうなるのか証明も厳密に書いていくので冗長で読みにくい部分があるかもしれない

なので、証明はあんまり興味ないという人は読み飛ばしてくれてかまわない

結局ガウス分布というものが何で、どういう性質があって、それを機械学習で用いるための最尤推定というものがどういうものかをつかんでくれればこの記事の役割はまっとうしたと思う。

 

ガウス分布ってなんだ?

まず、ガウス分布とは、統計学や確率論でよく使われる連続確率分布の一つである。ガウス分布は、正規分布とも呼ばれ、自然界や社会現象など様々な分野で現れることが多い。そのため、機械学習やパターン認識でも重要な役割を果たしている

ガウス分布は、平均値\(\mu\)と分散\(\sigma^2\)の二つのパラメータによって特徴付けられる。平均値は分布の中心を表し、分散は分布の広がり具合を示している。ガウス分布の確率密度関数は以下の式で表される。

【定義】ガウス分布の確立密度関数(一次元)

$$ \mathcal{N}(x|\mu, \sigma^2) = \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{(x - \mu)^2}{2 \sigma^2}} $$

 

この式を見ても、一見難しく見えるかもしれないが、要素ごとに分解して考えると理解しやすくなる。この式の意味は、確率変数 x が特定の値をとる確率密度を表している。

式の最初の部分、\(\frac{1}{\sqrt{2 \pi \sigma^2}} \)は、正規化項と呼ばれ、確率密度関数の積分が1になることを保証するために必要である。確率密度関数の性質として、全確率の和が1でなければならないため、この正規化項が必要である。

次に、指数関数の部分を見ると、\( e^{-\frac{(x - \mu)^2}{2 \sigma^2}} \) となっている。ここで、指数関数の中の \( -\frac{(x - \mu)^2}{2 \sigma^2} \) は、x が平均値 μ からどれだけ離れているかを表す。x が平均値に近いほど、指数関数の値は大きくなり、x が平均値から遠ざかるほど、指数関数の値は小さくなる。これにより、ガウス分布の形状が決まる。

ガウス分布の性質については、以下のようなものがある。

 

ガウス分布の性質

  1. 非負性:確率密度関数は、すべての\(x\)に対して非負である。指数関数は常に正であり、分母にも正の定数が含まれているため、$$\mathcal{N}(x|\mu, \sigma^2) > 0$$となる。
  2. 規格化:ガウス分布は、確率密度関数の全体積が1になるように規格化されている。
  3. 対称性:ガウス分布は、平均\(\mu\)を中心に対称である。つまり、$$ \mathcal{N}(x|\mu, \sigma^2) = \mathcal{N}(-x|\mu, \sigma^2) $$である。
  4. ガウス分布の期待値は平均値に一致:ガウス分布の下で期待値は平均値となる。
  5. 平均と最頻値が一致:ガウス分布において、平均値と最頻値(最も高い確率密度を持つ値)が一致する。これは、$$\mathcal{N}(x|\mu, \sigma^2)$$が対称性を持つためである。
  6. 無限可分性:ガウス分布は、無限可分性という性質を持っている。これは、任意の正の整数\(n\)に対して、\(n\)個の独立な同じガウス分布からなる確率変数の和もまた、ガウス分布に従うことを意味する。

などの性質がある。1の非負性、3の対称性に関しては明らかに自明なので、置いておいて、それ以外のものについての証明を見ていこう。

 

ガウス分布が規格化されていることの証明

これは次のように証明できる。

$$ \int_{-\infty}^{\infty} \mathcal{N}(x|\mu, \sigma^2) dx = \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi \sigma^2}} \exp{\left( -\frac{(x - \mu)^2}{2 \sigma^2} \right)} dx $$

\(u = \frac{x - \mu}{\sqrt{2\sigma^2}}\)とおくと、\(du = \frac{dx}{\sqrt{2\sigma^2}}\)となる。

$$ \int_{-\infty}^{\infty} \mathcal{N}(x|\mu, \sigma^2) dx = \frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{\infty} \exp(-u^2) \sqrt{2\sigma^2} du $$

$$ = \frac{1}{\sqrt{\pi}} \int_{-\infty}^{\infty} \exp(-u^2) du $$

ガウス積分の公式を使うと、上式は次のようになる。

$$ \int_{-\infty}^{\infty} \exp(-u^2) du = \sqrt{\pi} $$

したがって、

$$ \int_{-\infty}^{\infty} \mathcal{N}(x|\mu, \sigma^2) dx = 1 $$

 

ガウス積分の公式

ガウス積分の公式とは、次のような形の積分を計算する公式である。

$$ \int_{-\infty}^{\infty} e^{-ax^2} dx = \sqrt{\frac{\pi}{a}} \ (a > 0) $$

これも示していこう。

ガウス積分の公式の証明

$$\iint_{\mathbb{R}^2} e^{-x^2-y^2} d x d y=\pi$$

この積分は極座標変換 \(x=r \cos \theta, y=r \sin \theta\) を施すと求まる。
$$
\begin{aligned}
\iint_{\mathbb{R}^2} e^{-x^2-y^2} d x d y & =\int_0^{2 \pi} \int_0^{\infty} e^{-r^2} r d r d \theta \\
& =\int_0^{2 \pi} d \theta \cdot \int_0^{\infty} e^{-r^2} r d r \\
& =2 \pi \lim _{\epsilon \rightarrow \infty}\left[-\frac{1}{2} e^{-r^2}\right]_0^\epsilon \\
& =\pi .
\end{aligned}
$$

(A)の左辺は \(x\) の関数とyの関数に分離することができ,
$$
\iint_{\mathbb{R}^2} e^{-x^2-y^2} d x d y=\int_{\mathbb{R}} e^{-x^2} d x \times \int_{\mathbb{R}} e^{-y^2} d y=\left(\int_{\mathbb{R}} e^{-x^2} d x\right)^2 \quad \cdots(\#)
$$
と変形できます.
よってガウス積分の公式
$$
\int_{-\infty}^{\infty} e^{-x^2} d x=\sqrt{\pi}
$$
が得られる。

 

ここでしれっと\(\#\)のところの式で分離しているが、この計算はしていいのだろうか。

もう少しお付き合いいただきたい。

【定理】広義積分の変数分離

1変数の広義積分 \(\int_a^{\infty}|f(x)| d x , \int_b^{\infty}|g(x)| d x\) が収束するとき,
$$
\iint_D f(x) g(y) d x d y=\left(\int_a^{\infty} f(x) d x\right)\left(\int_b^{\infty} g(y) d y\right)
$$
が成り立つ. ここに \(D=\{(x, y) \mid a \leq x \leq \infty, b \leq y \leq \infty\}\) とした.

これの証明に関してはこの本がおすすめ

 

つまりは広義積分 \(\int_{\mathbb{R}} e^{-x^2} d x$\)は収束するということを示さなければならない。

被積分関数 \(e^{-x^2}\) は偶関数なので,積分 \(\int_0^{\infty} e^{-x^2} d x\) が収束することを示せば十分で、さらに
$$
\begin{aligned}
& \int_0^{\infty} e^{-x^2} d x=\int_0^1 e^{-x^2} d x+\int_1^{\infty} e^{-x^2} d x \\
\end{aligned}
$$
右辺第一項は通常の積分であるので、\(\int_1^{\infty} e^{-x^2} d x\)が収束することを示せばよいということになる
$$
f(r)=\int_1^r e^{-x^2} d x \quad(r \geq 1)
$$
とおくと, \(e^{-x^2} \geq 0\) より, \(f(r)\) は単調増加関数となります. \(x \geq 1\) のとき \(e^{-x^2} \leq x e^{-x^2}\) だから
$$
f(r) \leq \int_1^r x e^{-x^2} d x=\left[-\frac{1}{2} e^{-x^2}\right]_0^r \rightarrow \frac{1}{2} \quad(r \rightarrow \infty)
$$
となって \(f(r)\) は上に有界で.上に有界な単調増加関数は収束するので \(f(r)\) は収束する. 以上より、広義積分 \(\int_{\mathbb{R}} e^{-x^2} d x\) は収束する。

 

ガウス分布において期待値は平均値となることの証明

ガウス分布の期待値について説明する前に、まず期待値について思い出そう。期待値とは、確率変数の「平均的」な値であり、確率分布によってその重みが決まる。連続分布の場合、期待値は以下のように定義される。

$$ \mathbb{E}\left[x\right] = \int_{-\infty}^{\infty} x p(x) dx $$

ここで、\(p(x)\)は確率密度関数である。

さて、ガウス分布の期待値を計算しよう。ガウス分布(正規分布)は以下の確率密度関数で表される。

$$ \mathcal{N}\left( x| \mu ,\sigma ^{2}\right) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left(-\frac{(x-\mu)^2}{2\sigma^2}\right) $$

ここで、\(\mu\)は平均であり、\(\sigma^2\)は分散である。このガウス分布の期待値を計算するためには、先ほどの期待値の定義式に当てはめて積分を評価すれば良い。

$$ \mathbb{E}\left[x\right] = \int_{-\infty}^{\infty} x \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left(-\frac{(x-\mu)^2}{2\sigma^2}\right) dx $$

この積分を解くために、次のような置換を行う。

$$ u = \frac{x - \mu}{\sqrt{2}\sigma} $$

このとき、\(x = \mu + \sqrt{2}\sigma u\)であり、\(dx = \sqrt{2}\sigma du\)である。この置換を用いて、積分を変形する。

$$ \mathbb{E}\left[x\right] = \int_{-\infty}^{\infty} (\mu + \sqrt{2}\sigma u) \frac{1}{\sqrt{2\pi\sigma^2}} \exp(-u^2) \sqrt{2}\sigma du $$

この式を整理すると、以下のようになる。

$$ \mathbb{E}\left[x\right] = \mu \int_{-\infty}^{\infty} \frac{1}{\sqrt{\pi}} \exp(-u^2) du + \sqrt{2}\sigma \int_{-\infty}^{\infty} \frac{1}{\sqrt{\pi}} u \exp(-u^2) du $$

最初の積分は標準ガウス分布の確率密度関数の積分であり、その値は1である。また、二つ目の積分は偶関数であるため、積分値は0になる。従って、

$$ \mathbb{E}\left[x\right] = \mu $$

これで、ガウス分布の期待値が平均\(\mu\)であることが証明された。つまり、ガウス分布に従う確率変数の期待値は、その分布の平均である\(\mu\)に一致することが分かった。これはガウス分布が中心的な位置を表すパラメータとして平均\(\mu\)を持っていることを意味している。

 

二乗の期待値は?

$$ \mathbb{E}\left[x^2\right]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^2\right) x^2 \mathrm{~d} x $$

この積分を計算するために、次のような置換を行う。

$$ y = \frac{x - \mu}{\sigma} $$

この時、\(dy = \frac{dx}{\sigma}\)であり、\(x = \sigma y + \mu\)である。この置換を用いて積分を変形すると、

$$ \mathbb{E}\left[x^2\right]=\int_{-\infty}^{\infty} \mathcal{N}\left(\sigma y + \mu \mid \mu, \sigma^2\right) (\sigma y + \mu)^2 \sigma \mathrm{~d} y $$

\(\mathcal{N}(\sigma y + \mu \mid \mu, \sigma^2)\)は\(y\)に関する標準正規分布\(\mathcal{N}(y \mid 0, 1)\)になる。標準正規分布の定義から、以下のように変形できる。

$$ \mathbb{E}\left[x^2\right]=\sigma^2\int_{-\infty}^{\infty} \mathcal{N}\left(y \mid 0, 1\right) (y^2 + 2y \frac{\mu}{\sigma} + \frac{\mu^2}{\sigma^2}) \mathrm{~d} y $$

この積分は3つの項の積分の和として考えられる。

$$ \mathbb{E}\left[x^2\right]=\sigma^2\int_{-\infty}^{\infty} \mathcal{N}\left(y \mid 0, 1\right) y^2 \mathrm{~d} y + 2\mu\int_{-\infty}^{\infty} \mathcal{N}\left(y \mid 0, 1\right) y \mathrm{~d} y + \mu^2\int_{-\infty}^{\infty} \mathcal{N}\left(y \mid 0, 1\right) \mathrm{~d} y $$

それぞれの積分を計算すると、

$$ \int_{-\infty}^{\infty} \mathcal{N}\left(y \mid 0, 1\right) y^2 \mathrm{~d} y = 1 \ \int_{-\infty}^{\infty} \mathcal{N}\left(y \mid 0, 1\right) y \mathrm{~d} y =0 \ \int_{-\infty}^{\infty} \mathcal{N}\left(y \mid 0, 1\right) \mathrm{~d} y = 1 $$

それぞれの理由は以下の通りである。

  1. 標準正規分布において、\(y^2\)の期待値は1である。
  2. 標準正規分布は対称であり、\(y\)についての積分は0になる。
  3. 標準正規分布の確率密度関数は全確率を1とするため、定数1をかけた積分も1になる。

これらの結果を用いて、元の式に戻すと、

$$ \mathbb{E}\left[x^2\right]=\sigma^2(1) + 2\mu(0) + \mu^2(1) = \sigma^2 + \mu^2 $$

よって、ガウス分布に従う確率変数\(x\)の二乗の期待値は\(\sigma^2 + \mu^2\)となることが示された。

 

よって先の一次の期待値と併せて
$$
\operatorname{var}[x]=\mathbb{E}\left[x^2\right]-\mathbb{E}[x]^2=\sigma^2
$$

となることも確認できた。

 

ガウス分布において平均と最頻値は一致することの証明

ガウス分布において平均と最頻値が一致することを示すために、まずガウス分布の定義を思い出す。

$$ \mathcal{N}(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2}(x-\mu)^2} $$

平均は、ガウス分布の期待値であり、\(\mu\)と表される。

最頻値とは、ガウス分布の確率密度関数が最大になる\(x\)の値である。確率密度関数が最大になる点は、その導関数が0になる点である。つまり、\(\mathcal{N}(x | \mu, \sigma^2)\)の導関数を求め、それが0になる点を見つけることで、最頻値を求めることができる。

\(\mathcal{N}(x | \mu, \sigma^2)\)の導関数を求める。\(e^{-\frac{1}{2\sigma^2}(x-\mu)^2}\)に関して微分するため、指数関数の微分法則とチェインルールを用いる。

$$ \frac{d}{dx} \mathcal{N}(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \left( -\frac{1}{\sigma^2} (x-\mu) \right) e^{-\frac{1}{2\sigma^2}(x-\mu)^2} $$

この導関数が0になる\(x\)の値を求める。

$$ \frac{d}{dx} \mathcal{N}(x | \mu, \sigma^2) = 0 $$

$$ -\frac{1}{\sigma^2} (x-\mu) e^{-\frac{1}{2\sigma^2}(x-\mu)^2} = 0 $$

\(e^{-\frac{1}{2\sigma^2}(x-\mu)^2}\)は\(x\)に関して常に正であるため、この式が0になるのは、

$$ x - \mu = 0 $$

つまり、\(x = \mu\)のときである。

以上より、ガウス分布において、平均\(\mu\)と最頻値が一致することが示された。この性質は、ガウス分布が対称性を持つために成り立っている。平均値の周りで分布が左右対称であるため、確率密度関数が最大になる点は平均値と一致することになる。

 

ガウス分布の無限可分性の証明

ガウス分布の無限可分性

$$
\begin{aligned}
&\text { 確率変数 } X, Y \text { は独立であり、 } X \sim N\left(\mu_1, \sigma_1^2\right), Y \sim N\left(\mu_2, \sigma_2^2\right) \text { ならば、 }\\
&X+Y \sim N\left(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2\right)
\end{aligned}
$$

(証明) まず和の公式:
$$
f_{X+Y}(z)=\int_{-\infty}^{\infty} f_X(z-y) f_Y(y) d y
$$
をもちいる。積分される関数は
$$
\begin{aligned}
f_X(z-y) f_Y(y) & =\frac{1}{2 \pi \sigma_1 \sigma_2} \exp \left(-\frac{\left(z-y-\mu_1\right)^2}{2 \sigma_1^2}-\frac{\left(y-\mu_2\right)^2}{2 \sigma_2^2}\right) \\
& =\frac{1}{2 \pi \sigma_1 \sigma_2} \exp \left(-\frac{1}{2}\left\{\frac{\left(z-y-\mu_1\right)^2}{\sigma_1^2}+\frac{\left(y-\mu_2\right)^2}{\sigma_2^2}\right\}\right)
\end{aligned}
$$
この指数部を計算していくと、
$$
\begin{aligned}
\frac{\left(z-y-\mu_1\right)^2}{\sigma_1^2}+\frac{\left(y-\mu_2\right)^2}{\sigma_2^2} & =\frac{1}{\sigma_1^2}\left\{y^2-2\left(z-\mu_1\right) y+\left(z-\mu_1\right)^2\right\}\\
&+\frac{1}{\sigma_2^2}\left\{y^2-2 \mu_2 y+\mu_2^2\right\} \\
& =\left(\frac{1}{\sigma_1^2}+\frac{1}{\sigma_2^2}\right) y^2-2\left(\frac{z-\mu_1}{\sigma_1^2}+\frac{\mu_2}{\sigma_2^2}\right) y\\
&+\frac{\left(z-\mu_1\right)^2}{\sigma_1^2}+\frac{\mu_2^2}{\sigma_2^2} \\
& =A y^2-2 B y+C=A\left(y-\frac{B}{A}\right)^2-\frac{B^2}{A}+C
\end{aligned}
$$
ここで $$\quad A=\frac{1}{\sigma_1^2}+\frac{1}{\sigma_2^2}=\frac{\sigma_1^2+\sigma_2^2}{\sigma_1^2 \sigma_2^2}, \quad B=\frac{z-\mu_1}{\sigma_1^2}+\frac{\mu_2}{\sigma_2^2}, \quad C=\frac{\left(z-\mu_1\right)^2}{\sigma_1^2}+\frac{\mu_2^2}{\sigma_2^2}$$ とおく。さらにこれを計算 する。
$$
\begin{aligned}
\frac{B^2}{A}-C & =\frac{\sigma_1^2 \sigma_2^2}{\sigma_1^2+\sigma_2^2}\left(\frac{z-\mu_1}{\sigma_1^2}+\frac{\mu_2}{\sigma_2^2}\right)^2-\left(\frac{\left(z-\mu_1\right)^2}{\sigma_1^2}+\frac{\mu_2^2}{\sigma_2^2}\right) \\
& =\frac{\sigma_1^2 \sigma_2^2}{\sigma_1^2+\sigma_2^2}\left(\frac{\left(z-\mu_1\right)^2}{\sigma_1^4}+2 \frac{\left(z-\mu_1\right) \mu_2}{\sigma_1^2 \sigma_2^2}+\frac{\mu_2^2}{\sigma_2^4}\right)^2-\frac{\left(z-\mu_1\right)^2}{\sigma_1^2}-\frac{\mu_2^2}{\sigma_2^2} \\
& =\frac{1}{\sigma_1^2+\sigma_2^2} \frac{\sigma_2^2}{\sigma_1^2}\left(z-\mu_1\right)^2+\frac{2}{\sigma_1^2+\sigma_2^2}\left(z-\mu_1\right) \mu_2\\
&+\frac{1}{\sigma_1^2+\sigma_2^2} \frac{\sigma_1^2}{\sigma_2^2} \mu_2^2-\frac{\left(z-\mu_1\right)^2}{\sigma_1^2}-\frac{\mu_2^2}{\sigma_2^2} \\
& =\left\{\frac{1}{\sigma_1^2+\sigma_2^2} \frac{\sigma_2^2}{\sigma_1^2}-\frac{1}{\sigma_1^2}\right\}\left(z-\mu_1\right)^2+2 \frac{z-\mu_1}{\sigma_1^2+\sigma_2^2} \mu_2+\left\{\frac{1}{\sigma_1^2+\sigma_2^2} \frac{\sigma_1^2}{\sigma_2^2}-\frac{1}{\sigma_2^2}\right\} \mu_2^2 \\
& =\frac{-1}{\sigma_1^2+\sigma_2^2}+2 \frac{z-\mu_1}{\sigma_1^2+\sigma_2^2} \mu_2-\frac{-1}{\sigma_1^2+\sigma_2^2} \mu_2^2 \\
& =\frac{-1}{\sigma_1^2+\sigma_2^2}\left(z-\mu_1-\mu_2\right)^2
\end{aligned}
$$

したがって指数部は
$$
A\left(y-\frac{B}{A}\right)^2-\frac{B^2}{A}+C=\frac{\sigma_1^2+\sigma_2^2}{\sigma_1^2 \sigma_2^2}\left(y-\frac{B}{A}\right)^2+\frac{-1}{\sigma_1^2+\sigma_2^2}\left(z-\mu_1-\mu_2\right)^2
$$
正規分布の密度関数は積分をすると 1 になることから、
$$
\int_{-\infty}^{\infty} \exp \left(-\frac{(x-\mu)^2}{2 \sigma^2}\right) d x=\sqrt{2 \pi} \sigma
$$
右辺は \(\mu\) に依存しないことに注意する。つまり
$$
\int_{-\infty}^{\infty} \exp \left(-\frac{1}{2} \frac{\sigma_1^2+\sigma_2^2}{\sigma_1^2 \sigma_2^2}\left(y-\frac{B}{A}\right)^2\right) d y=\sqrt{2 \pi} \frac{\sigma_1 \sigma_2}{\sqrt{\sigma_1^2+\sigma_2^2}}
$$
したがって
$$
\begin{aligned}
f_{X+Y}(z) & =\int_{-\infty}^{\infty} f_X(z-y) f_Y(y) d y \\
& =\frac{1}{2 \pi \sigma_1 \sigma_2} \int_{-\infty}^{\infty} \exp \left(-\frac{1}{2} \frac{\sigma_1^2+\sigma_2^2}{\sigma_1^2 \sigma_2^2}\left(y-\frac{B}{A}\right)^2\right) d y \times \exp \left(-\frac{\left(z-\mu_1-\mu_2\right)^2}{2\left(\sigma_1^2+\sigma_2^2\right)}\right) \\
& =\frac{1}{\sqrt{2 \pi} \sqrt{\sigma_1^2+\sigma_2^2}} \exp \left(-\frac{\left(z-\mu_1-\mu_2\right)^2}{2\left(\sigma_1^2+\sigma_2^2\right)}\right)
\end{aligned}
$$
最後の式は \(X+Y \sim N\left(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2\right)\) に対する密度関数であることを示している。

 

多変量ガウス分布

まず、D次元ベクトルの連続変数\(\mathbf{x}\)に対して定義される多次元ガウス分布(正規分布)について説明しよう。一次元のガウス分布が平均\(\mu\)と分散\(\sigma^2\)によって特徴づけられるのと同様に、多次元ガウス分布は平均ベクトル\(\boldsymbol{\mu}\)と共分散行列\(\boldsymbol{\Sigma}\)によって特徴づけられる。

$$ \mathcal{N}(\mathbf{x} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma})=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\boldsymbol{\Sigma}|^{1 / 2}} \exp \{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\} $$

この式では、\(\mathbf{x}\)はD次元のデータ点であり、\(\boldsymbol{\mu}\)はD次元の平均ベクトル、\(\boldsymbol{\Sigma}\)はD×Dの共分散行列である。\(|\boldsymbol{\Sigma}|\)は共分散行列の行列式で、\((2 \pi)^{D / 2}\)は多次元ガウス分布の規格化定数である。

多変量のガウス分布を詳しく

マハラノビス距離ってなに?多次元のガウス分布(正規分布)の座標変換で分かるその本質【深奥】

というところがこの記事の内容である。 ガウス分布も機械学習、統計を学ぶ上で避けては通れないビックな項目なのでゆっくりとやっていこう。   この記事では主に一次元のガウス分布の性質について触れ ...

続きを見る

 

さて、独立同分布とは何かについて説明しよう。独立同分布とは、複数の確率変数が同じ確率分布に従い、かつ互いに独立であることを指す。具体的には、データ点が同じ分布から独立に生成される場合、そのデータ点の集合は独立同分布に従うと言える。

例えば、あるクラスの生徒たちの身長を測定したデータを考えよう。生徒たちはそれぞれ異なる身長を持っているが、ある程度の範囲内でばらついていると予想される。このとき、生徒たちの身長は同じ確率分布(例えば、ガウス分布)に従うと考えられる。また、各生徒の身長は他の生徒の身長に影響されず、独立であると考えられる。このように、生徒たちの身長のデータは独立同分布に従うと言える。

独立同分布を仮定することで、データ点の確率を各データ点の確率の積として表現する

$$ p\left(\mathbf{x} \mid \mu, \sigma^2\right)=\prod_{n=1}^N \mathcal{N}\left(x_n \mid \mu, \sigma^2\right) $$

このように全体の確立は各データ点の確立の積で表現することができる
これは確率論の基礎の二つの独立な事象の同時確率はそれぞれの事象の周辺確立の積で与えられることから明らかである。

先の身長の例では、生徒たちの身長全体の確立分布を求めたいと考えてみる。

ここで、生徒たちの身長データを\(\mathbf{x} = (x_1, x_2, \dots, x_N)\)とし、各データ点(生徒の身長)は平均\(\mu\)、分散\(\sigma^2\)のガウス分布に従うとする。このとき、独立同分布の性質から、全体の確率分布は各データ点の確率分布の積で表すことができる。

$$ p\left(\mathbf{x} \mid \mu, \sigma^2\right) = \prod_{n=1}^N \mathcal{N}\left(x_n \mid \mu, \sigma^2\right) $$

\(\mathcal{N}\left(x_n \mid \mu, \sigma^2\right)\)は、各データ点(生徒の身長)のガウス分布に従う確率を表しています。この積を計算することで、全体の確率分布を求めることができる。

ところで、この式は\(\mu\)と\(\sigma^2\)の関数とみなすことで、ガウス分布に対する尤度関数とみることができる。

 

最尤推定の解を求めよう

それでは、最尤推定の解を求める過程を丁寧に説明する。

まず、尤度関数は次のように書けた。

$$ p\left(\mathbf{x} \mid \mu, \sigma^2\right) = \prod_{n=1}^N \mathcal{N}\left(x_n \mid \mu, \sigma^2\right) $$

尤度関数を対数尤度関数に変換する。対数をとる理由は、積の形式を和に変換するためで、計算が容易になるからだ。対数尤度関数は以下のようになる。

$$ \ln p\left(\mathbf{x} \mid \mu, \sigma^2\right) = -\frac{1}{2 \sigma^2} \sum_{n=1}^N\left(x_n - \mu\right)^2 - \frac{N}{2} \ln \sigma^2 - \frac{N}{2} \ln (2 \pi) $$

次に、この対数尤度関数を\(\mu\)に関して最大化する。それには、対数尤度関数を\(\mu\)で微分し、その結果を0に設定して解を求める。

$$ \frac{\partial}{\partial \mu} \ln p\left(\mathbf{x} \mid \mu, \sigma^2\right) = \frac{1}{\sigma^2} \sum_{n=1}^N (x_n - \mu) = 0 $$

この式を\(\mu\)について解く。

$$ \sum_{n=1}^N (x_n - \mu) = 0 $$

$$ \sum_{n=1}^N x_n - N\mu = 0 $$

$$ \mu_{\mathrm{ML}} = \frac{1}{N} \sum_{n=1}^N x_n $$

これで、最尤推定による\(\mu\)の解が求まった。次に、対数尤度関数を\(\sigma^2\)に関して最大化する。

$$ \frac{\partial}{\partial \sigma^2} \ln p\left(\mathbf{x} \mid \mu, \sigma^2\right) = \frac{1}{2 \sigma^4} \sum_{n=1}^N\left(x_n - \mu\right)^2 - \frac{N}{2 \sigma^2} = 0 $$

この式を\(\sigma^2\)について解く。

$$ \sum_{n=1}^N\left(x_n - \mu\right)^2 = N \sigma^2 $$

$$ \sigma_{\mathrm{ML}}^2 = \frac{1}{N} \sum_{n=1}^N\left(x_n - \mu_{\mathrm{ML}}\right)^2 $$

これで、最尤推定による\(\sigma^2\)の解も求まった。このように、対数をとってまず\(\mu\)に関する最尤推定の解を求めたあと、その結果を使用して\(\sigma^2\)の解を求め評価をすることができる。

この\(\mu_{\mathrm{ML}}\)をサンプル平均、\(\sigma_{\mathrm{ML}}^2\)をサンプル分散という。

 

サンプルの期待値を計算しよう

まず、\(\mu_{\mathrm{ML}}\)の期待値を計算する。\(\mu_{\mathrm{ML}}\)の定義は以下の通りであった。

$$ \mu_{\mathrm{ML}} = \frac{1}{N} \sum_{n=1}^N x_n $$

\(\mu_{\mathrm{ML}}\)の期待値は、次のように計算できる。

$$ \mathbb{E}\left[\mu_{\mathrm{ML}}\right] = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^N x_n\right] $$

期待値の線形性を利用すると、

$$ \mathbb{E}\left[\mu_{\mathrm{ML}}\right] = \frac{1}{N} \sum_{n=1}^N \mathbb{E}\left[x_n\right] $$

各\(x_n\)は同じ平均\(\mu\)を持つため、

$$ \mathbb{E}\left[\mu_{\mathrm{ML}}\right] = \frac{1}{N} \sum_{n=1}^N \mu = \mu $$

次に、\(\sigma_{\mathrm{ML}}^2\)の期待値を計算する。\(\sigma_{\mathrm{ML}}^2\)の定義は以下の通りであった。

$$ \sigma_{\mathrm{ML}}^2 = \frac{1}{N} \sum_{n=1}^N\left(x_n - \mu_{\mathrm{ML}}\right)^2 $$

\(\sigma_{\mathrm{ML}}^2\)の期待値は、次のように計算できる。

$$ \mathbb{E}\left[\sigma_{\mathrm{ML}}^2\right] = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^N\left(x_n - \mu_{\mathrm{ML}}\right)^2\right] $$

ここで、\(x_n - \mu_{\mathrm{ML}} = (x_n - \mu) - (\mu_{\mathrm{ML}} - \mu)\)と置き換えると、

$$ \mathbb{E}\left[\sigma_{\mathrm{ML}}^2\right] = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^N\left[(x_n - \mu) - (\mu_{\mathrm{ML}} - \mu)\right]^2\right] $$

これを展開すると、

$$ \mathbb{E}\left[\sigma_{\mathrm{ML}}^2\right] = \frac{1}{N} \sum_{n=1}^N \mathbb{E}\left[(x_n - \mu)^2 - 2(x_n - \mu)(\mu_{\mathrm{ML}} - \mu) + (\mu_{\mathrm{ML}} - \mu)^2\right] $$

期待値の線形性を利用して、3つの項ごとに期待値を計算する。

第1項目について:

$$ \mathbb{E}\left[(x_n - \mu)^2\right] = \sigma^2 $$

第2項目について:

$$ \mathbb{E}\left[- 2(x_n - \mu)(\mu_{\mathrm{ML}} - \mu)\right] = - 2\mathbb{E}\left[(x_n - \mu)(\mu_{\mathrm{ML}} - \mu)\right] $$

第3項目について:

$$ \mathbb{E}\left[(\mu_{\mathrm{ML}} - \mu)^2\right] = \frac{\sigma^2}{N} $$

これらをまとめると、

$$ \mathbb{E}\left[\sigma_{\mathrm{ML}}^2\right] = \frac{1}{N} \sum_{n=1}^N \left(\sigma^2 - 2\mathbb{E}\left[(x_n - \mu)(\mu_{\mathrm{ML}} - \mu)\right] + \frac{\sigma^2}{N}\right) $$

第2項目を計算するために、共分散の性質(2つの確率変数が独立の場合、共分散は0となる)を利用する。
、つまり\(n=k\)のとき、\((x_n - \mu)(x_k - \mu) = (x_n - \mu)^2\)となり、期待値は\(\sigma^2\)となる。しかし、\(n \neq k\)の場合、\((x_n - \mu)\)と\((x_k - \mu)\)は独立なので、期待値は0となる。つまり、以下の式が成立する。

$$ \mathbb{E}\left[(x_n - \mu)(\mu_{\mathrm{ML}} - \mu)\right] = \frac{1}{N}\mathbb{E}\left[(x_n - \mu)^2\right] = \frac{1}{N}\sigma^2 $$

これを代入して、

$$ \mathbb{E}\left[\sigma_{\mathrm{ML}}^2\right] = \frac{1}{N} \sum_{n=1}^N \left(\sigma^2 - 2\frac{1}{N}\sigma^2 + \frac{\sigma^2}{N}\right) $$

$$ \mathbb{E}\left[\sigma_{\mathrm{ML}}^2\right] = \frac{1}{N} \sum_{n=1}^N \left(\frac{N-1}{N}\sigma^2\right) = \left(\frac{N-1}{N}\right) \sigma^2 $$

これで期待値が求まった。\(\mu_{\mathrm{ML}}\)は真の平均\(\mu\)の期待値を持っているため、バイアスが0である。しかし、これは、\(\sigma_{\mathrm{ML}}^2\)が真の分散\(\sigma^2\)よりも小さい値を持つ期待値を持っていることから、バイアスがあることを意味する。このバイアスは、最尤推定の特性によるものである。具体的には、最尤推定はデータに過剰に適合するため、データの中心を推定する際に過小評価される傾向がある。

このバイアスの問題を解決するために、偏推定量を使うことができる。不偏推定量は、推定量の期待値が真のパラメータの値と一致するものを指す。分散の不偏推定量は以下のように定義される。

【定義】分散の不偏推定量

$$ \hat{\sigma}^2 = \frac{1}{N-1} \sum_{n=1}^N\left(x_n - \mu_{\mathrm{ML}}\right)^2 $$

 

不偏推定量\(\hat{\sigma}^2\)の期待値を計算すると、以下のようになる。

$$ \mathbb{E}\left[\hat{\sigma}^2\right] = \frac{1}{N-1} \sum_{n=1}^N\left(x_n - \mu_{\mathrm{ML}}\right)^2 $$

この式は、真の分散\(\sigma^2\)と一致する期待値を持つため、アスが0であることが分かる。

要約すると、最尤推定はデータに過剰に適合するため、分散の推定にバイアスが生じることがある。この問題を解決するために不偏推定量を使用することができ、不偏推定量はバイアスが0であることが期待される。分散の無偏推定量は、サンプルサイズを\(N\)から\(N-1\)に調整することで得られる。

 

まとめ

この記事では、ガウス分布や多変量ガウス分布の基本的な性質と証明を段階的に丁寧に解説した。

さらに、最尤推定を用いてデータからガウス分布のパラメータを推定する方法や、サンプルの期待値を計算する方法を紹介した。

これらの知識は、データ解析や機械学習の分野で非常に重要であり、身の回りの現象をより深く理解するための第一歩となるだろう。

 

参考先

 

-勉強, 数学, 機械学習/AI
-,