勉強 数学 機械学習/AI

指数型分布族ってなに?定義とその性質、多項分布やガウス分布ってほんとに指数型分布??

2023年6月14日

この記事のポイント

  • 指数型分布族の定義
  • ベルヌーイ分布、多項分布、ガウス分布はホントに指数型分布なのか
  • 最尤推定とか事前共役とかの話
  • 無情報事前分布の話

 

「指数型分布族」、聞いたことはあるけれど、具体的に何を指すのか、どのような特性を持つのか、そしてなぜ重要なのか。

そんな疑問を持つ方々へ、この記事は一つ一つ丁寧に解き明かしていく。

ベルヌーイ分布、多項分布、ガウス分布といった具体的な分布が実は指数型分布族に属していること、そしてそれが何を意味するのか。

さらに、最尤推定法と共に、指数型分布族と共役事前分布の関係についても掘り下げていく。無情報事前分布や変則事前分布についても触れ、指数型分布族の理解を深める一助となることを目指す。

 

ただ、僕も勉強中の身なので、何か間違いなどがあればコメント等で教えてほしい。

指数型分布族

指数型分布族とは、特定の形式を持つ確率分布の集合を指す。その形式は次のように表される。

【定義】指数型分布族

$$
p(\mathbf{x} \mid \boldsymbol{\eta})=h(\mathbf{x}) g(\boldsymbol{\eta}) \exp \left\{\boldsymbol{\eta}^{\mathrm{T}} \mathbf{u}(\mathbf{x})\right\}
$$

ここで、\(\mathbf{x}\)は観測データ、\(\boldsymbol{\eta}\)は分布のパラメータ(自然パラメータと呼ばれる)、\(h(\mathbf{x})\)、\(g(\boldsymbol{\eta})\)、\(\mathbf{u}(\mathbf{x})\)は関数である。

\(\mathbf{u}(\mathbf{x})\)は任意の関数、\(g(\boldsymbol{\eta})\)は分布を正規化するための係数で

$$
g(\boldsymbol{\eta}) \int h(\mathbf{x}) \exp \left\{\boldsymbol{\eta}^{\mathrm{T}} \mathbf{u}(\mathbf{x})\right\} \mathrm{d} \mathbf{x}=1
$$

と解釈することができる。

 

離散確率・事前共役分布徹底解説 ベルヌーイ分布、二項分布、カテゴリ分布、多項分布、ベータ分布、ディリクレ分布

  この記事では、様々な機械学習アルゴリズムを構築するためのパーツとなる各種基本的な確率分布の定義と、その用途や性質を解説する。 非常にヘビーな記事で文字数にして三万文字近くある。 めちゃめ ...

続きを見る

マハラノビス距離ってなに?多次元のガウス分布(正規分布)の座標変換で分かるその本質【深奥】

というところがこの記事の内容である。 ガウス分布も機械学習、統計を学ぶ上で避けては通れないビックな項目なのでゆっくりとやっていこう。   この記事では主に一次元のガウス分布の性質について触れ ...

続きを見る

これらの記事ではベルヌーイ分布をはじめとする離散確率分布や、ガウス分布を解説してきた。
実はこれらの確率分布は指数型分布族に属している。


出典:Wikipedia

ここからは一部の分布について本当にそうなのか確かめていこう。

ベルヌーイ分布ってホントに指数型分布族???

ベルヌーイ分布

$$ p(x \mid \mu) = {Bern}(x \mid \mu) = \mu^x (1 - \mu)^{1 - x} $$

対数をとって、さらにその指数をとるという変形を右辺に施して、整理すると

$$
\begin{aligned}
p(x \mid \mu) & =\exp \{x \ln \mu+(1-x) \ln (1-\mu)\} \\
& =(1-\mu) \exp \left\{\ln \left(\frac{\mu}{1-\mu}\right) x\right\} .
\end{aligned}
$$

となり、これを指数型分布族の定義式と比較すると

$$
\eta=\ln \left(\frac{\mu}{1-\mu}\right)
$$

このように対応することがわかる。これを\(\mu\)について解き、それを\(\sigma(\eta)\)とおくと

$$
\sigma(\eta)=\frac{1}{1+\exp (-\eta)}
$$

となり、この\(\sigma(\eta)\)はロジスティックシグモイド関数と呼ばれている

ロジスティックシグモイド関数

$$
\sigma(\eta)=\frac{1}{1+\exp (-\eta)}
$$

ロジスティックシグモイド関数は、実数を0から1の間の値に変換する関数である。

この関数は、\(\boldsymbol{\eta}\)が大きいときには1に近づき、\(\boldsymbol{\eta}\)が小さいときには0に近づく。また、\(\boldsymbol{\eta}=0\)のときには0.5となる。

 

ベルヌーイ分布を指数型分布族の標準形で表すと、\(1-\sigma(\eta)=\sigma(-\eta)\)より

$$
p(x \mid \eta)=\sigma(-\eta) \exp (\eta x)
$$

改めて定義式との関数の対応を整理すると

$$
\begin{aligned}
u(x) & =x \\
h(x) & =1 \\
g(\eta) & =\sigma(-\eta) .
\end{aligned}
$$

となっていて、確かにベルヌーイ分布は指数分布族であることが分かった。

多項分布ってホントに指数型分布族???

多項分布

$$
p(\mathbf{x} \mid \boldsymbol{\mu})=\prod_{k=1}^M \mu_k^{x_k}
$$

ここで、\(\mathbf{x}\)は各カテゴリーに対する観測回数を表すベクトル、\(\boldsymbol{\mu}\)は各カテゴリーが選ばれる確率を表すベクトルである。また、\(M\)はカテゴリーの数を表す。

この確率質量関数を指数型分布族の形式に合わせて書き換えると、

$$
p(\mathbf{x} \mid \boldsymbol{\mu})=\exp \left\{\sum_{k=1}^M x_k \ln \mu_k\right\}
$$

となる。これは指数型分布族の形式に一致していて\(\eta_k=\ln \mu_k\)として\(\boldsymbol{\eta}=\left(\eta_1, \ldots, \eta_M\right)^{\mathrm{T}}\)と定義すれば

$$
p(\mathbf{x} \mid \boldsymbol{\eta})=\exp \left(\boldsymbol{\eta}^{\mathrm{T}} \mathbf{x}\right)
$$

となっていて、指数型分布族の定義との対応は

$$
\begin{aligned}
& \mathbf{u}(\mathbf{x})=\mathbf{x} \\
& h(\mathbf{x})=1 \\
& g(\boldsymbol{\eta})=1 .
\end{aligned}
$$

となるが、パラメータ\(\mu_k\)には以下のような制約があるので、パラメータ\(\eta_k\)は独立ではないことに注意

$$
\sum_{k=1}^M \mu_k=1
$$

 

制約を考慮した多項分布の指数型分布表現

時に、この制約を取り除いて、\(M-1\)個のパラメータのみを用いて分布を表現しなおした方が便利なことがある。

\(\mu_M\)を残りの{\(\mu_k\)},\(k=1, \ldots, M-1\)で表して\(\mu_M\)を消去する。

 

さて、このやり方で多項分布を別のやり方で表してみよう。

$$
\begin{aligned}
& \exp \left\{\sum_{k=1}^M x_k \ln \mu_k\right\} \\
& =\exp \left\{\sum_{k=1}^{M-1} x_k \ln \mu_k+\left(1-\sum_{k=1}^{M-1} x_k\right) \ln \left(1-\sum_{k=1}^{M-1} \mu_k\right)\right\} \\
& =\exp \left\{\sum_{k=1}^{M-1} x_k \ln \left(\frac{\mu_k}{1-\sum_{j=1}^{M-1} \mu_j}\right)+\ln \left(1-\sum_{k=1}^{M-1} \mu_k\right)\right\} .
\end{aligned}
$$

二行目から三行目の変形

\( \sum_{k=1}^{M-1} x_k \ln \mu_k \) という項があるが、実際には \( \mu_k \) を次のように分解して考えることができる。

$$ \mu_k = \frac{\mu_k}{1-\sum_{k=1}^{M-1} \mu_k} \times (1-\sum_{k=1}^{M-1} \mu_k) $$

このようにすると、\(\ln \left(1-\sum_{k=1}^{M-1} \mu_k\right)\) という項が共通項として現れる。だから、\( \ln \mu_k \) を \( \ln \left(\frac{\mu_k}{1-\sum_{k=1}^{M-1} \mu_k}\right) + \ln \left(1-\sum_{k=1}^{M-1} \mu_k\right) \) の形に分解することができる。

その結果、元の式は次のように変形できる:

$$ \sum_{k=1}^{M-1} x_k \left[ \ln \left(\frac{\mu_k}{1-\sum_{k=1}^{M-1} \mu_k}\right) + \ln \left(1-\sum_{k=1}^{M-1} \mu_k\right) \right] + \left(1-\sum_{k=1}^{M-1} x_k\right) \ln \left(1-\sum_{k=1}^{M-1} \mu_k\right) $$

これを整理すると、次のようになる:

$$ \ln \left(1-\sum_{k=1}^{M-1} \mu_k\right) + \sum_{k=1}^{M-1} x_k \ln \left(\frac{\mu_k}{1-\sum_{k=1}^{M-1} \mu_k}\right) $$

これが二行目から三行目への変形だ。これは、\(\mu_k\) を \( \frac{\mu_k}{1-\sum_{k=1}^{M-1} \mu_k}\) と \(1-\sum_{k=1}^{M-1} \mu_k\) の二つの部分に分解し、それぞれに自然対数を適用し、それらを再結合した結果である。これにより、各パラメータ \(\mu_k\) についての項がそれぞれ独立に扱えるようになり、それぞれを最大化することが可能になる。

よって対応は

$$
\ln \left(\frac{\mu_k}{1-\sum_j \mu_j}\right)=\eta_k
$$

\(\mu_k\)について解くことで

$$
\mu_k=\frac{\exp \left(\eta_k\right)}{1+\sum_j \exp \left(\eta_j\right)}
$$

この関数をソフトマックス関数や正規化指数関数と呼ぶ

証明

まず、\( \ln \left(\frac{\mu_k}{1-\sum_j \mu_j}\right)=\eta_k \) と定義しているので、それを逆に計算してみると、\(\mu_k\)について表現できる:

$$ \mu_k = \left(1-\sum_j \mu_j\right) \exp \left(\eta_k\right) $$

次に、すべての\(k\)について両辺を足し合わせると、次の式が得られる:

$$ \sum_k \mu_k = \sum_k\exp \left(\eta_k\right) - \sum_j \mu_j \sum_k \exp \left(\eta_k\right) $$

ここで、 \(\sum_k \mu_k = 1\) という事実を使うことができる(これは\(\mu_k\)が確率を表現するためのパラメータであり、それらの総和は1となる)。それにより、式は次のように整理できる:

$$ 1 = \sum_k \exp \left(\eta_k\right) - \sum_j \mu_j \sum_k \exp \left(\eta_k\right) $$

これを \(\sum_j \mu_j\) について解くと:

$$ \sum_j \mu_j = \frac{\sum_k \exp \left(\eta_k\right) - 1}{\sum_k \exp \left(\eta_k\right)} $$

さて、これが求めるべき式の一部となる。ここで、先ほど得た \(\mu_k\) の表現に戻って、この結果を代入すると:

$$ \mu_k = \left(1-\frac{\sum_k \exp \left(\eta_k\right) - 1}{\sum_k \exp \left(\eta_k\right)}\right) \exp \left(\eta_k\right) $$

ここで、分母と分子に同じ形の \(\sum_k \exp \left(\eta_k\right)\) があるため、それらを簡約できる:

$$ \mu_k = \frac{\exp \left(\eta_k\right)}{1 + \sum_j \exp \left(\eta_j\right)} $$

よって、多項分布は

$$
p(\mathbf{x} \mid \boldsymbol{\eta})=\left(1+\sum_{k=1}^{M-1} \exp \left(\eta_k\right)\right)^{-1} \exp \left(\boldsymbol{\eta}^{\mathrm{T}} \mathbf{x}\right)
$$

と表現できる。ここで、\(\boldsymbol{\eta} = \left(\eta_1, \ldots, \eta_{M-1}\right)^{\mathrm{T}}\)、対応は

$$
\begin{aligned}
& \mathbf{u}(\mathbf{x})=\mathbf{x} \\
& h(\mathbf{x})=1 \\
& g(\boldsymbol{\eta})=\left(1+\sum_{k=1}^{M-1} \exp \left(\eta_k\right)\right)^{-1}
\end{aligned}
$$

となる。

 

ガウス分布ってホントに指数型分布族???

D次元の多変量ガウス分布

$$
N(\mathbf{x} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma})=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\boldsymbol{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}) \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}}\right\}
$$

である。

ただし\(\mu\)はD次元の平均ベクトル、\(\boldsymbol{\Sigma}\) は \(D \times D\)の共分散行列である。

 

多変量ガウス分布は指数を含んだ関数の形になっているので、指数内部の形を変形する。

$$
-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})=-\frac{1}{2} \mathbf{x}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{x}+\mathbf{x}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}+-\frac{1}{2} \boldsymbol{\mu} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}^{\mathrm{T}}
$$

を活用して\(x\)を含む項をくくりだすと

$$
\begin{aligned}
N(\mathbf{x} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma}) & =\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\boldsymbol{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}) \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}}\right\} \\
& =\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\boldsymbol{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2} \boldsymbol{\mu} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}^{\mathrm{T}}\right\} \exp \left\{-\frac{1}{2} \mathbf{x}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{x}+\mathbf{x}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}\right\}
\end{aligned}
$$

正規分布のパラメータは平均と分散であるため、パラメータ\(\eta\)は\(\mu\)と\(\Sigma\)が入る形になると考えられる。

最後の式の二番目のexpより、\(u(x)\)は

$$
\mathbf{u}(\mathbf{x})=\left(\begin{array}{c}
\boldsymbol{\Sigma} \mathbf{x}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{x} \\
\boldsymbol{\mu}^{-1} \mathbf{x}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}
\end{array}\right)
$$

とおけ、

$$
\boldsymbol{\eta}=\left(\begin{array}{c}
-\frac{1}{2} \boldsymbol{\Sigma}^{-1} \\
\boldsymbol{\mu}
\end{array}\right)
$$

とみなせる。

ここから、残りの関数を考えると、\(\Sigma\)は対角行列のため

$$
\begin{aligned}
h(\mathbf{x}) & =\frac{1}{(2 \pi)^{D / 2}} \\
g(\boldsymbol{\eta}) & =\frac{1}{|\boldsymbol{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2} \boldsymbol{\mu} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}^{\mathrm{T}}\right\} \\
& =\frac{1}{\left|-2 \boldsymbol{\eta}_{\mathbf{1}}\right|^{1 / 2}} \exp \left\{\boldsymbol{\eta}_{\mathbf{2}} \boldsymbol{\eta}_{\mathbf{1}} \boldsymbol{\eta}_2^{\mathrm{T}}\right\}
\end{aligned}
$$

 

よってガウス分布も指数型分布族である。

 

最尤推定してみよう

【定義】指数型分布族

$$
p(\mathbf{x} \mid \boldsymbol{\eta})=h(\mathbf{x}) g(\boldsymbol{\eta}) \exp \left\{\boldsymbol{\eta}^{\mathrm{T}} \mathbf{u}(\mathbf{x})\right\}
$$

ここで、\(\mathbf{x}\)は観測データ、\(\boldsymbol{\eta}\)は分布のパラメータ(自然パラメータと呼ばれる)、\(h(\mathbf{x})\)、\(g(\boldsymbol{\eta})\)、\(\mathbf{u}(\mathbf{x})\)は関数である。

最尤推定によって、指数分布族の一般系のパラメータベクトル\(\boldsymbol{\eta}\)を推定する問題を考えてみる。

$$
g(\boldsymbol{\eta}) \int h(\mathbf{x}) \exp \left\{\boldsymbol{\eta}^{\mathrm{T}} \mathbf{u}(\mathbf{x})\right\} \mathrm{d} \mathbf{x}=1
$$

の両辺の勾配を求めると

$$
\begin{aligned}
& \nabla g(\boldsymbol{\eta}) \int h(\mathbf{x}) \exp \left\{\boldsymbol{\eta}^{\mathrm{T}} \mathbf{u}(\mathbf{x})\right\} \mathrm{d} \mathbf{x} \\
& \quad+g(\boldsymbol{\eta}) \int h(\mathbf{x}) \exp \left\{\boldsymbol{\eta}^{\mathrm{T}} \mathbf{u}(\mathbf{x})\right\} \mathbf{u}(\mathbf{x}) \mathrm{d} \mathbf{x}=0 .
\end{aligned}
$$

再び上記の式を使用して

$$
-\frac{1}{g(\boldsymbol{\eta})} \nabla g(\boldsymbol{\eta})=g(\boldsymbol{\eta}) \int h(\mathbf{x}) \exp \left\{\boldsymbol{\eta}^{\mathrm{T}} \mathbf{u}(\mathbf{x})\right\} \mathbf{u}(\mathbf{x}) \mathrm{d} \mathbf{x}=\mathbb{E}[\mathbf{u}(\mathbf{x})] $$

よって

$$
-\nabla \ln g(\boldsymbol{\eta})=\mathbb{E}[\mathbf{u}(\mathbf{x})] $$

が言える。さらに、\(\mathbf{u}\)の共分散は、\(g(\boldsymbol{\eta})\)の二回微分で表すことができる。

証明

上で、一回微分の値が示されているのでこれをさらに微分することで示す。

$$
\begin{aligned}
-\frac{1}{\mathrm{~g}(\eta)} \nabla \mathrm{g}(\eta)=\mathrm{g}(\eta) \int \mathrm{h}(\mathrm{x}) \exp \left\{\eta^{\mathrm{T}} \mathrm{u}(\mathrm{x})\right\} \mathrm{u}(\mathrm{x}) \mathrm{dx} & =\mathrm{E}[\mathrm{u}(\mathrm{x})] \\
-\nabla \operatorname{lng}(\eta) & =\mathrm{E}[\mathrm{u}(\mathrm{x})] \end{aligned}
$$

$$
-\nabla \operatorname{lng}(\eta)=\mathrm{g}(\eta) \int \mathrm{h}(\mathrm{x}) \exp \left\{\eta^{\mathrm{T}} \mathrm{u}(\mathrm{x})\right\} \mathrm{u}(\mathrm{x}) \mathrm{dx}
$$

よって

$$
-\nabla \nabla \operatorname{lng}(\eta))=\nabla \mathrm{g}(\eta) \int \mathrm{h}(\mathrm{x}) \exp \left\{\eta^{\mathrm{T}} \mathrm{u}(\mathrm{x})\right\} \mathrm{u}(\mathrm{x})^{\mathrm{T}} \mathrm{dx} \\+\mathrm{g}(\eta) \int \mathrm{h}(\mathrm{x}) \exp \left\{\eta^{\mathrm{T}} \mathrm{u}(\mathrm{x})\right\} \mathrm{u}(\mathrm{x}) \mathrm{u}(\mathrm{x})^{\mathrm{T}} \mathrm{dx}
$$

右辺の第一項を式変形すると

$$
\begin{aligned}
\nabla \mathrm{g}(\eta) \int \mathrm{h}(\mathrm{x}) \exp \left\{\eta^{\mathrm{T}} \mathrm{u}(\mathrm{x})\right\} \mathrm{u}(\mathrm{x})^{\mathrm{T}} \mathrm{dx} & =\nabla \mathrm{g}(\eta) * \mathrm{~g}(\eta) \int \mathrm{h}(\mathrm{x}) \exp \left\{\eta^{\mathrm{T}} \mathrm{u}(\mathrm{x})\right\} \mathrm{u}(\mathrm{x})^{\mathrm{T}} \mathrm{dx} \\
& =\nabla \operatorname{lng}(\eta) * \mathrm{E}\left[\mathrm{u}(\mathrm{x})^{\mathrm{T}}\right] \\
& =-\mathrm{E}[\mathrm{u}(\mathrm{x})] * \mathrm{E}\left[\mathrm{u}(\mathrm{x})^{\mathrm{T}}\right] \end{aligned}
$$

したがって

$$
-\nabla \nabla \operatorname{lng}(\eta)=-\mathrm{E}[\mathrm{u}(\mathrm{x})] * \mathrm{E}\left[\mathrm{u}(\mathrm{x})^{\mathrm{T}}\right]+\mathrm{E}\left[\mathrm{u}(\mathrm{x}) \mathrm{u}(\mathrm{x})^{\mathrm{T}}\right]=\operatorname{cov}[\mathrm{u}(\mathrm{x})] $$

よって題意は示された

さらに高次のモーメントにおいても同様で、つまり、指数型分布族の分布を正規化できれば、その分布のモーメントは単に微分すれば求めることができる。

 

では尤度関数を最大化しよう。独立の同分布に従うデータの集合\(\mathbf{X} = \left\{\mathbf{x}_1, \ldots, \mathbf{x}_n\right\}\)を考えれば尤度関数は

$$
p(\mathbf{X} \mid \boldsymbol{\eta})=\left(\prod_{n=1}^N h\left(\mathbf{x}_n\right)\right) g(\boldsymbol{\eta})^N \exp \left\{\boldsymbol{\eta}^{\mathrm{T}} \sum_{n=1}^N \mathbf{u}\left(\mathbf{x}_n\right)\right\}
$$

である。

対数尤度関数は次のように表される

$$
\ln p(\mathbf{X} \mid \boldsymbol{\eta})=\sum_{n=1}^N \ln h\left(\mathbf{x}_n\right)+N \ln g(\boldsymbol{\eta})+\boldsymbol{\eta}^{\mathrm{T}} \sum_{n=1}^N \mathbf{u}\left(\mathbf{x}_n\right)
$$

この対数尤度関数を\(\boldsymbol{\eta}\)で微分し、その結果が0になる\(\boldsymbol{\eta}\)を求める。これが最尤推定量\(\boldsymbol{\eta}_{\mathrm{ML}}\)である。

$$
\frac{\partial}{\partial \boldsymbol{\eta}} \ln p(\mathbf{X} \mid \boldsymbol{\eta})=0
$$

この微分を計算すると、次の式が得られる。

$$
N \frac{\partial}{\partial \boldsymbol{\eta}} \ln g(\boldsymbol{\eta})+\sum_{n=1}^N \mathbf{u}\left(\mathbf{x}_n\right)=0
$$

これを整理すると

$$
-\nabla \ln g\left(\boldsymbol{\eta}_{\mathrm{ML}}\right)=\frac{1}{N} \sum_{n=1}^N \mathbf{u}\left(\mathbf{x}_n\right)
$$

これが最尤推定量を求める式である。

\(\eta_{M L} \propto \sum \boldsymbol{u}(\boldsymbol{x})\)なので\(\sum \boldsymbol{u}(\boldsymbol{x})\)のみでデータの性質を表していると言える。
つまり、これは分布の十分統計量であると言える。

例えば、ベルヌーイ分布ならば、関数\(\mathbf{u}(x)\)は単にxであるので、データ点\(\{x_n\}\)の総和を保持していればよい。一方、ガウス分布は\(\mathbf{u}(x)=\left(x, x^2\right)^{\mathrm{T}}\)なので、\(\{x_n\}\)の和と\(\{x_n^2\}\)の和の両方を保持する必要がある。

 

 

指数型分布族と共役事前分布

 

これまで、共役事前分布についてみてきた、例えば、ベルヌーイ分布では共役事前分布はベータ分布、ガウス分布では、平均についての共役事前分布はガウス分布であり、精度についてはウィシャート分布というものが存在した。

 

しかしここまで見てきたようにこれらは全て指数型分布族で、指数型分布族の任意の分布についてはそもそも次の形で書ける共役事前分布が存在する。

$$
p(\boldsymbol{\eta} \mid \boldsymbol{\chi}, \nu)=f(\boldsymbol{\chi}, \nu) g(\boldsymbol{\eta})^\nu \exp \left\{\nu \boldsymbol{\eta}^{\mathrm{T}} \boldsymbol{\chi}\right\}
$$

尤度関数はこのようなものであったので

$$
p(\mathbf{X} \mid \boldsymbol{\eta})=\left(\prod_{n=1}^N h\left(\mathbf{x}_n\right)\right) g(\boldsymbol{\eta})^N \exp \left\{\boldsymbol{\eta}^{\mathrm{T}} \sum_{n=1}^N \mathbf{u}\left(\mathbf{x}_n\right)\right\}
$$

事後分布は

$$
p(\boldsymbol{\eta} \mid \mathbf{X}, \boldsymbol{\chi}, \nu) \propto g(\boldsymbol{\eta})^{\nu+N} \exp \left\{\boldsymbol{\eta}^{\mathrm{T}}\left(\sum_{n=1}^N \mathbf{u}\left(\mathbf{x}_n\right)+\nu \boldsymbol{\chi}\right)\right\}
$$

となり、確かに事前分布と同じ関数形になっていて、事前分布が共役であることが確認できた。

 

つまり、指数型分布族の分布を使用していれば、計算がめちゃくちゃ楽で、理論的背景もしっかりしているので安心して使える共役事前分布が存在するということなのだ。

 

 

無情報事前分布

ベイズ統計において、事前分布は自分で設定する必要がある。ベイズのいいところは何らかの事前知識やその信念の度合いを事前分布で表現可能であるということなのだが

そもそも、なんの知見もないときはどうしたらいいのか…

そういうときにはなるべく事前分布の影響を抑えたい。そこで出てくるのが無情報事前分布である。

 

無情報事前分布はどのようなものがあるのか考えてみよう。まぁまずぱっと思い浮かぶのが偏りのない一様分布

\(\lambda\)が離散変数であれば問題は発生しない。しかし、連続では二つ問題が発生する。

連続パラメータで一様分布を用いる際の二つの問題点

  • \(\lambda\)の定義域が有界でないとき、\(\lambda\)上での積分が発散する(正規化できない)
  • 非線形の変数変換をすると定数にならない
変則事前分布(非正則事前分布)

事前分布が正規化できなくても事後分布で正規化できるならばそのまま使われることが多い。こうした分布は変則事前分布(非正則事前分布)とよばれる。

 

例えば以下の密度関数を事前分布に設定するとする

$$
\pi(\theta)=C \quad(-\infty \leq \theta \leq \infty)
$$

この積分値は明らかに無限大に発散し、これは、全事象の確率が1であるというコルモゴロフの確率の公理に反してしまう。

つまり、厳密にいえば、非正則な分布は確率密度関数ではないが、それでもこの分布が使われる理由は事前分布として機能しとても有用だからで、実際に正規分布を例に事後分布を計算してみる。

 

事後分布を計算すると

$$
\begin{align}
\pi(\mu \mid x) &\propto \pi(\mu) f(x \mid \mu)\\
&\left.\propto C \cdot\left(\frac{1}{\sqrt{2 \pi} \sigma}\right)^n \exp \left[-\frac{1}{2 \sigma^2}\left\{n(\mu-\bar{x})^2+n S^2\right)\right\}\right]\\
&\propto \exp \left[-\frac{\left.n(\mu-\bar{x})^2\right)}{2 \sigma^2}\right]\\
\end{align}
$$

ここに規格化定数をかけて

$$
\pi(\mu \mid x)=\frac{1}{\sqrt{2 \pi \sigma^2 / n}} \exp \left[-\frac{\left.n(\mu-\bar{x})^2\right)}{2 \sigma^2}\right] $$

となる。この分布の形から

平均: \(\bar{x}\)
分散 : \(\frac{\sigma^2}{n}\)

この平均と分散は、サンプルサイズがnのとき標本平均と標本分散に一致していて、事前分布を非正則分布に設定すると、事前情報が一切加味されず、データの情報だけで事後分布が構成される。これが無情報事前分布である。

 

非線形な変数変換がうまくできない

例えば\(p_\lambda(\lambda)\)が定数だとする。

\(\lambda=\eta^2\)と変数変換を行うと、

\(p_\eta(\eta)=p_\lambda(\lambda)\left|\frac{d \lambda}{d \eta}\right|=p_\lambda\left(\eta^2\right) 2 \eta \propto \eta\)

となり\(\eta\)上の密度は定数にならない。

統計的な推定問題を解く際には、あるパラメーター空間から別のパラメーター空間への変数変換が頻繁に行われる。これは、例えば、問題をより簡単にするため、または計算を効率的にするために行われる。また、特定の分布が与えられていて、その分布のパラメータを他のパラメータに変換して解釈するためにも使われる。

つまり、変数変換が行えないのでいろいろ不都合

 

では、他にはどのような無情報事前分布があるのだろうか。二つの観点を満たすような事前分布を考えてみる

平行移動不変性

これは事前分布の考える範囲を平行移動、例えば(0,10)の範囲で考えていたものを(-10,0)と移動しても、その範囲の確率が一定となる性質である。
(事前分布に関して知見がない前提なので、どの範囲を選んでも確率は一定となってほしいことに留意)

つまり、\(A \leq\mu \leq B\)に入る確率と、\(A-c \leq \mu \leq B-c\)に入る確率が等しいので

$$
\int_A^B p(\mu) d \mu=\int_{A-c}^{B-c} p(\mu) d \mu=\int_A^B p(\mu-c) d \mu
$$

この式が任意のA,Bについて成立するため、

$$
p(\mu)=p(\mu-c)
$$

よって\(p(\mu)\)は定数

 

ガウス分布の平均\(\mu\)の無情報事前分布を考える場合、ガウス分布の平均の共役事前分布はガウス分布である。この事前分布のガウス分布の分散\(\sigma_0^2\)を無限に極限をとる(=分布の「すそ」が無限に長く、極限に平らな形をしたガウス分布

 

尺度不変性

これは事前分布の考える範囲をスケール変換、例えば(0,10)の範囲で考えていたものを(10, 100)や(100, 1000)としても、その範囲の確率が一定となる性質である。

\(A \leq \sigma \leq B\)に入る確率と\(A / c \leq \sigma \leq B / c\)に入る確率が等しいので(パラメータ\(\sigma\)のことを尺度パラメータという)

$$
\int_A^B p(\sigma) d \sigma=\int_{A / c}^{B / c} p(\sigma) d \sigma=\int_A^B \frac{1}{c} p\left(\frac{\sigma}{c}\right) d \sigma
$$

これが任意のA,Bについて成り立つので

$$p(\sigma)=\frac{1}{c} p\left(\frac{\sigma}{c}\right)$$

従って\(p(\sigma) \propto 1 / \sigma\)となっている。

 

尺度パラメータの例として、位置パラメータ\(\mu\)を考慮済みのガウス分布の標準偏差\(\sigma\)がある。理由はこちらの式を見てほしい

$$
\mathcal{N}\left(x \mid \mu, \sigma^2\right) \propto \sigma^{-1} \exp \left\{-(\widetilde{x} / \sigma)^2\right\}
$$

平均\(\mu\)を考慮済みのガウス分布の\(\sigma^2\)の無情報事前分布を考える場合、計算の簡略化のために分散の代わりに精度\(\lambda\)に変数変換を行い、\(\lambda\)の事前分布として\(a_0 = b_0 = 0 \)であるガンマ分布を使う

 

 

参考

 

 

 

-勉強, 数学, 機械学習/AI