この記事のポイント
- 指数型分布族の定義
- ベルヌーイ分布、多項分布、ガウス分布はホントに指数型分布なのか
- 最尤推定とか事前共役とかの話
- 無情報事前分布の話
「指数型分布族」、聞いたことはあるけれど、具体的に何を指すのか、どのような特性を持つのか、そしてなぜ重要なのか。
そんな疑問を持つ方々へ、この記事は一つ一つ丁寧に解き明かしていく。
ベルヌーイ分布、多項分布、ガウス分布といった具体的な分布が実は指数型分布族に属していること、そしてそれが何を意味するのか。
さらに、最尤推定法と共に、指数型分布族と共役事前分布の関係についても掘り下げていく。無情報事前分布や変則事前分布についても触れ、指数型分布族の理解を深める一助となることを目指す。
ただ、僕も勉強中の身なので、何か間違いなどがあればコメント等で教えてほしい。
指数型分布族
指数型分布族とは、特定の形式を持つ確率分布の集合を指す。その形式は次のように表される。
【定義】指数型分布族
$$
p(\mathbf{x} \mid \boldsymbol{\eta})=h(\mathbf{x}) g(\boldsymbol{\eta}) \exp \left\{\boldsymbol{\eta}^{\mathrm{T}} \mathbf{u}(\mathbf{x})\right\}
$$
ここで、\(\mathbf{x}\)は観測データ、\(\boldsymbol{\eta}\)は分布のパラメータ(自然パラメータと呼ばれる)、\(h(\mathbf{x})\)、\(g(\boldsymbol{\eta})\)、\(\mathbf{u}(\mathbf{x})\)は関数である。
\(\mathbf{u}(\mathbf{x})\)は任意の関数、\(g(\boldsymbol{\eta})\)は分布を正規化するための係数で
$$
g(\boldsymbol{\eta}) \int h(\mathbf{x}) \exp \left\{\boldsymbol{\eta}^{\mathrm{T}} \mathbf{u}(\mathbf{x})\right\} \mathrm{d} \mathbf{x}=1
$$
と解釈することができる。
-
離散確率・事前共役分布徹底解説 ベルヌーイ分布、二項分布、カテゴリ分布、多項分布、ベータ分布、ディリクレ分布
この記事では、様々な機械学習アルゴリズムを構築するためのパーツとなる各種基本的な確率分布の定義と、その用途や性質を解説する。 非常にヘビーな記事で文字数にして三万文字近くある。 めちゃめ ...
続きを見る
-
マハラノビス距離ってなに?多次元のガウス分布(正規分布)の座標変換で分かるその本質【深奥】
というところがこの記事の内容である。 ガウス分布も機械学習、統計を学ぶ上で避けては通れないビックな項目なのでゆっくりとやっていこう。 この記事では主に一次元のガウス分布の性質について触れ ...
続きを見る
これらの記事ではベルヌーイ分布をはじめとする離散確率分布や、ガウス分布を解説してきた。
実はこれらの確率分布は指数型分布族に属している。
出典:Wikipedia
ここからは一部の分布について本当にそうなのか確かめていこう。
ベルヌーイ分布ってホントに指数型分布族???
ベルヌーイ分布
$$ p(x \mid \mu) = {Bern}(x \mid \mu) = \mu^x (1 - \mu)^{1 - x} $$
対数をとって、さらにその指数をとるという変形を右辺に施して、整理すると
$$
\begin{aligned}
p(x \mid \mu) & =\exp \{x \ln \mu+(1-x) \ln (1-\mu)\} \\
& =(1-\mu) \exp \left\{\ln \left(\frac{\mu}{1-\mu}\right) x\right\} .
\end{aligned}
$$
となり、これを指数型分布族の定義式と比較すると
$$
\eta=\ln \left(\frac{\mu}{1-\mu}\right)
$$
このように対応することがわかる。これを\(\mu\)について解き、それを\(\sigma(\eta)\)とおくと
$$
\sigma(\eta)=\frac{1}{1+\exp (-\eta)}
$$
となり、この\(\sigma(\eta)\)はロジスティックシグモイド関数と呼ばれている
ロジスティックシグモイド関数
$$
\sigma(\eta)=\frac{1}{1+\exp (-\eta)}
$$
ロジスティックシグモイド関数は、実数を0から1の間の値に変換する関数である。
この関数は、\(\boldsymbol{\eta}\)が大きいときには1に近づき、\(\boldsymbol{\eta}\)が小さいときには0に近づく。また、\(\boldsymbol{\eta}=0\)のときには0.5となる。
ベルヌーイ分布を指数型分布族の標準形で表すと、\(1-\sigma(\eta)=\sigma(-\eta)\)より
$$
p(x \mid \eta)=\sigma(-\eta) \exp (\eta x)
$$
改めて定義式との関数の対応を整理すると
$$
\begin{aligned}
u(x) & =x \\
h(x) & =1 \\
g(\eta) & =\sigma(-\eta) .
\end{aligned}
$$
となっていて、確かにベルヌーイ分布は指数分布族であることが分かった。
多項分布ってホントに指数型分布族???
多項分布
$$
p(\mathbf{x} \mid \boldsymbol{\mu})=\prod_{k=1}^M \mu_k^{x_k}
$$
ここで、\(\mathbf{x}\)は各カテゴリーに対する観測回数を表すベクトル、\(\boldsymbol{\mu}\)は各カテゴリーが選ばれる確率を表すベクトルである。また、\(M\)はカテゴリーの数を表す。
この確率質量関数を指数型分布族の形式に合わせて書き換えると、
$$
p(\mathbf{x} \mid \boldsymbol{\mu})=\exp \left\{\sum_{k=1}^M x_k \ln \mu_k\right\}
$$
となる。これは指数型分布族の形式に一致していて\(\eta_k=\ln \mu_k\)として\(\boldsymbol{\eta}=\left(\eta_1, \ldots, \eta_M\right)^{\mathrm{T}}\)と定義すれば
$$
p(\mathbf{x} \mid \boldsymbol{\eta})=\exp \left(\boldsymbol{\eta}^{\mathrm{T}} \mathbf{x}\right)
$$
となっていて、指数型分布族の定義との対応は
$$
\begin{aligned}
& \mathbf{u}(\mathbf{x})=\mathbf{x} \\
& h(\mathbf{x})=1 \\
& g(\boldsymbol{\eta})=1 .
\end{aligned}
$$
となるが、パラメータ\(\mu_k\)には以下のような制約があるので、パラメータ\(\eta_k\)は独立ではないことに注意
$$
\sum_{k=1}^M \mu_k=1
$$
制約を考慮した多項分布の指数型分布表現
時に、この制約を取り除いて、\(M-1\)個のパラメータのみを用いて分布を表現しなおした方が便利なことがある。
\(\mu_M\)を残りの{\(\mu_k\)},\(k=1, \ldots, M-1\)で表して\(\mu_M\)を消去する。
さて、このやり方で多項分布を別のやり方で表してみよう。
$$
\begin{aligned}
& \exp \left\{\sum_{k=1}^M x_k \ln \mu_k\right\} \\
& =\exp \left\{\sum_{k=1}^{M-1} x_k \ln \mu_k+\left(1-\sum_{k=1}^{M-1} x_k\right) \ln \left(1-\sum_{k=1}^{M-1} \mu_k\right)\right\} \\
& =\exp \left\{\sum_{k=1}^{M-1} x_k \ln \left(\frac{\mu_k}{1-\sum_{j=1}^{M-1} \mu_j}\right)+\ln \left(1-\sum_{k=1}^{M-1} \mu_k\right)\right\} .
\end{aligned}
$$
よって対応は
$$
\ln \left(\frac{\mu_k}{1-\sum_j \mu_j}\right)=\eta_k
$$
\(\mu_k\)について解くことで
$$
\mu_k=\frac{\exp \left(\eta_k\right)}{1+\sum_j \exp \left(\eta_j\right)}
$$
この関数をソフトマックス関数や正規化指数関数と呼ぶ
よって、多項分布は
$$
p(\mathbf{x} \mid \boldsymbol{\eta})=\left(1+\sum_{k=1}^{M-1} \exp \left(\eta_k\right)\right)^{-1} \exp \left(\boldsymbol{\eta}^{\mathrm{T}} \mathbf{x}\right)
$$
と表現できる。ここで、\(\boldsymbol{\eta} = \left(\eta_1, \ldots, \eta_{M-1}\right)^{\mathrm{T}}\)、対応は
$$
\begin{aligned}
& \mathbf{u}(\mathbf{x})=\mathbf{x} \\
& h(\mathbf{x})=1 \\
& g(\boldsymbol{\eta})=\left(1+\sum_{k=1}^{M-1} \exp \left(\eta_k\right)\right)^{-1}
\end{aligned}
$$
となる。
ガウス分布ってホントに指数型分布族???
D次元の多変量ガウス分布
$$
N(\mathbf{x} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma})=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\boldsymbol{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}) \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}}\right\}
$$
である。
ただし\(\mu\)はD次元の平均ベクトル、\(\boldsymbol{\Sigma}\) は \(D \times D\)の共分散行列である。
多変量ガウス分布は指数を含んだ関数の形になっているので、指数内部の形を変形する。
$$
-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})=-\frac{1}{2} \mathbf{x}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{x}+\mathbf{x}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}+-\frac{1}{2} \boldsymbol{\mu} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}^{\mathrm{T}}
$$
を活用して\(x\)を含む項をくくりだすと
$$
\begin{aligned}
N(\mathbf{x} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma}) & =\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\boldsymbol{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}) \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}}\right\} \\
& =\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\boldsymbol{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2} \boldsymbol{\mu} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}^{\mathrm{T}}\right\} \exp \left\{-\frac{1}{2} \mathbf{x}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{x}+\mathbf{x}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}\right\}
\end{aligned}
$$
正規分布のパラメータは平均と分散であるため、パラメータ\(\eta\)は\(\mu\)と\(\Sigma\)が入る形になると考えられる。
最後の式の二番目のexpより、\(u(x)\)は
$$
\mathbf{u}(\mathbf{x})=\left(\begin{array}{c}
\boldsymbol{\Sigma} \mathbf{x}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{x} \\
\boldsymbol{\mu}^{-1} \mathbf{x}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}
\end{array}\right)
$$
とおけ、
$$
\boldsymbol{\eta}=\left(\begin{array}{c}
-\frac{1}{2} \boldsymbol{\Sigma}^{-1} \\
\boldsymbol{\mu}
\end{array}\right)
$$
とみなせる。
ここから、残りの関数を考えると、\(\Sigma\)は対角行列のため
$$
\begin{aligned}
h(\mathbf{x}) & =\frac{1}{(2 \pi)^{D / 2}} \\
g(\boldsymbol{\eta}) & =\frac{1}{|\boldsymbol{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2} \boldsymbol{\mu} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}^{\mathrm{T}}\right\} \\
& =\frac{1}{\left|-2 \boldsymbol{\eta}_{\mathbf{1}}\right|^{1 / 2}} \exp \left\{\boldsymbol{\eta}_{\mathbf{2}} \boldsymbol{\eta}_{\mathbf{1}} \boldsymbol{\eta}_2^{\mathrm{T}}\right\}
\end{aligned}
$$
よってガウス分布も指数型分布族である。
最尤推定してみよう
【定義】指数型分布族
$$
p(\mathbf{x} \mid \boldsymbol{\eta})=h(\mathbf{x}) g(\boldsymbol{\eta}) \exp \left\{\boldsymbol{\eta}^{\mathrm{T}} \mathbf{u}(\mathbf{x})\right\}
$$
ここで、\(\mathbf{x}\)は観測データ、\(\boldsymbol{\eta}\)は分布のパラメータ(自然パラメータと呼ばれる)、\(h(\mathbf{x})\)、\(g(\boldsymbol{\eta})\)、\(\mathbf{u}(\mathbf{x})\)は関数である。
最尤推定によって、指数分布族の一般系のパラメータベクトル\(\boldsymbol{\eta}\)を推定する問題を考えてみる。
$$
g(\boldsymbol{\eta}) \int h(\mathbf{x}) \exp \left\{\boldsymbol{\eta}^{\mathrm{T}} \mathbf{u}(\mathbf{x})\right\} \mathrm{d} \mathbf{x}=1
$$
の両辺の勾配を求めると
$$
\begin{aligned}
& \nabla g(\boldsymbol{\eta}) \int h(\mathbf{x}) \exp \left\{\boldsymbol{\eta}^{\mathrm{T}} \mathbf{u}(\mathbf{x})\right\} \mathrm{d} \mathbf{x} \\
& \quad+g(\boldsymbol{\eta}) \int h(\mathbf{x}) \exp \left\{\boldsymbol{\eta}^{\mathrm{T}} \mathbf{u}(\mathbf{x})\right\} \mathbf{u}(\mathbf{x}) \mathrm{d} \mathbf{x}=0 .
\end{aligned}
$$
再び上記の式を使用して
$$
-\frac{1}{g(\boldsymbol{\eta})} \nabla g(\boldsymbol{\eta})=g(\boldsymbol{\eta}) \int h(\mathbf{x}) \exp \left\{\boldsymbol{\eta}^{\mathrm{T}} \mathbf{u}(\mathbf{x})\right\} \mathbf{u}(\mathbf{x}) \mathrm{d} \mathbf{x}=\mathbb{E}[\mathbf{u}(\mathbf{x})]
$$
よって
$$
-\nabla \ln g(\boldsymbol{\eta})=\mathbb{E}[\mathbf{u}(\mathbf{x})]
$$
が言える。さらに、\(\mathbf{u}\)の共分散は、\(g(\boldsymbol{\eta})\)の二回微分で表すことができる。
さらに高次のモーメントにおいても同様で、つまり、指数型分布族の分布を正規化できれば、その分布のモーメントは単に微分すれば求めることができる。
では尤度関数を最大化しよう。独立の同分布に従うデータの集合\(\mathbf{X} = \left\{\mathbf{x}_1, \ldots, \mathbf{x}_n\right\}\)を考えれば尤度関数は
$$
p(\mathbf{X} \mid \boldsymbol{\eta})=\left(\prod_{n=1}^N h\left(\mathbf{x}_n\right)\right) g(\boldsymbol{\eta})^N \exp \left\{\boldsymbol{\eta}^{\mathrm{T}} \sum_{n=1}^N \mathbf{u}\left(\mathbf{x}_n\right)\right\}
$$
である。
対数尤度関数は次のように表される
$$
\ln p(\mathbf{X} \mid \boldsymbol{\eta})=\sum_{n=1}^N \ln h\left(\mathbf{x}_n\right)+N \ln g(\boldsymbol{\eta})+\boldsymbol{\eta}^{\mathrm{T}} \sum_{n=1}^N \mathbf{u}\left(\mathbf{x}_n\right)
$$
この対数尤度関数を\(\boldsymbol{\eta}\)で微分し、その結果が0になる\(\boldsymbol{\eta}\)を求める。これが最尤推定量\(\boldsymbol{\eta}_{\mathrm{ML}}\)である。
$$
\frac{\partial}{\partial \boldsymbol{\eta}} \ln p(\mathbf{X} \mid \boldsymbol{\eta})=0
$$
この微分を計算すると、次の式が得られる。
$$
N \frac{\partial}{\partial \boldsymbol{\eta}} \ln g(\boldsymbol{\eta})+\sum_{n=1}^N \mathbf{u}\left(\mathbf{x}_n\right)=0
$$
これを整理すると
$$
-\nabla \ln g\left(\boldsymbol{\eta}_{\mathrm{ML}}\right)=\frac{1}{N} \sum_{n=1}^N \mathbf{u}\left(\mathbf{x}_n\right)
$$
これが最尤推定量を求める式である。
\(\eta_{M L} \propto \sum \boldsymbol{u}(\boldsymbol{x})\)なので\(\sum \boldsymbol{u}(\boldsymbol{x})\)のみでデータの性質を表していると言える。
つまり、これは分布の十分統計量であると言える。
例えば、ベルヌーイ分布ならば、関数\(\mathbf{u}(x)\)は単にxであるので、データ点\(\{x_n\}\)の総和を保持していればよい。一方、ガウス分布は\(\mathbf{u}(x)=\left(x, x^2\right)^{\mathrm{T}}\)なので、\(\{x_n\}\)の和と\(\{x_n^2\}\)の和の両方を保持する必要がある。