勉強 数学 機械学習/AI

経験ベイズってなに?線形回帰モデルをベイズ的に扱うための近似とエビデンス関数

2023年7月12日

この記事のポイント

予測分布のハイパーパラメータを最適化したいけど計算できないから、近似を使って訓練データのみからいい感じに予測分布を推定しよう。
そのための流れはどんな感じなの?っていう疑問を解決するための記事

 

エビデンス近似

僕たちが統計的な問題を解くとき、大抵は何かを予測したり、何かのパターンを見つけたりしたいわけで、これを達成するために、僕たちは通常、データに適合するようなモデルを構築する。そして、それらのモデルには「パラメータ」が存在し、そのパラメータを変えることでモデルの形が変わる。

 

問題は、事後分布を計算するのが非常に難しいことだ。特に、モデルが複雑になると、事後分布を厳密に計算することはほぼ不可能となる。

そこで考え出されたのが、「経験ベイズ」と呼ばれる手法だ。これは、全てのパラメータに対して事後分布を計算する代わりに、一部のパラメータ(「超パラメータ」)についてのみ事後分布を計算し、それを使って他のパラメータの値を推定するという方法だ。

具体的には、パラメータの事後分布を計算するためには、全てのパラメータを一度に考慮する必要があるが、これが難しい。そこで、超パラメータを固定して他のパラメータの事後分布を計算し、次にその結果を使って超パラメータの値を調整するというステップを繰り返す。この方法により、全てのパラメータの事後分布を一度に計算するよりも手間が省ける。

しかし、この方法は近似的な手法であるため、結果は厳密な解とは異なる可能性がある。だから、「経験ベイズ」はあくまで一つの選択肢であり、その限界も理解した上で使うべきだ。

 

 

ここで取り扱う問題は、予測分布を求めるというものだ。予測分布\(p(t | \mathbf{t})\)は、訓練データの目標値からなるベクトル\(\mathbf{t}\)から、目標値\(t\)がどのような値を取りうるかを表す分布だ。つまり、訓練データの目標値\(\mathbf{t}\)が与えられたとき、その予測値\(t\)を求める問題だ。

ただし、ここで重要なのは、この予測分布を計算する際にパラメータ\(\mathbf{w}\)や超パラメータ\(\alpha\)と\(\beta\)の不確かさを考慮に入れることだ。

すなわち、予測分布\(p(t | \mathbf{t})\)は以下のように計算される。

予測分布

$$ p(t \mid \mathbf{t})=\iiint p(t \mid \mathbf{w}, \beta) p(\mathbf{w} \mid \mathbf{t}, \alpha, \beta) p(\alpha, \beta \mid \mathbf{t}) \mathrm{d} \mathbf{w} \mathrm{d} \alpha \mathrm{d} \beta $$

 

つまり、\(p(t | \mathbf{t})\)という予測分布は、既知のデータ\(\mathbf{t}\)から新しい値\(t\)を予測するためのモデルの不確かさ(\(p(t | \mathbf{w}, \beta)\))、モデルのパラメータ\(\mathbf{w}\)の不確かさ(\(p(\mathbf{w} | \mathbf{t}, \alpha, \beta)\))、そしてモデルの超パラメータ\(\alpha, \beta\)の不確かさ(\(p(\alpha, \beta | \mathbf{t})\))を全て考慮に入れたものだと言える。

すなわち、全体としては、現在までに観測したデータ\(\mathbf{t}\)から、新たな観測値\(t\)の予測分布を導くことが目的で、そのためにパラメータ\(\mathbf{w}\)、超パラメータ\(\alpha, \beta\)の不確かさを考慮に入れる。この不確かさを考慮に入れることで、モデルの予測が現実の複雑さをより良く捉えられるようになるのだ。

ここで、右辺の各項目について説明する。

まず、一つ目の項目\(p(t | \mathbf{w}, \beta)\)は、パラメータ\(\mathbf{w}\)と超パラメータ\(\beta\)が与えられた場合の予測値\(t\)の確率分布である。つまり、この項目はモデルパラメータが既知であるときの予測の不確かさを表している。具体的には次のように表される。 $$ p(t \mid \mathbf{x}, \mathbf{w}, \beta)=\mathcal{N}\left(t \mid y(\mathbf{x}, \mathbf{w}), \beta^{-1}\right) $$ これは、入力データ\(\mathbf{x}\)から予測値\(t\)を導くためのモデル\(y(\mathbf{x}, \mathbf{w})\)が既知であるときの、予測値\(t\)の不確かさを正規分布で表現したものだ。

次に二つ目の項目\(p(\mathbf{w} | \mathbf{t}, \alpha, \beta)\)を見ていこう。これは、データ\(\mathbf{t}\)が与えられ、超パラメータ\(\alpha\)と\(\beta\)が既知であるときの、パラメータ\(\mathbf{w}\)の事後分布である。つまり、この項目はパラメータの不確かさを表している。具体的には次のように表される。 $$ p(\mathbf{w} \mid \mathbf{t})=\mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_N, \mathbf{S}_N\right) $$ ここで、\(\mathbf{m}_N\)と\(\mathbf{S}_N\)は、\(\mathbf{w}\)の平均値と分散を表す。つまり、パラメータ\(\mathbf{w}\)の不確かさは、平均\(\mathbf{m}_N\)と分散\(\mathbf{S}_N\)の正規分布によって表現される。つまり

$$ \begin{aligned} & \mathbf{m}_N=\beta \mathbf{S}_N \Phi^{\mathrm{T}} \mathbf{t} \\ & \mathbf{S}_N^{-1}=\alpha \mathbf{I}+\beta \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi} \end{aligned} $$

最後に三つ目の項目\(p(\alpha, \beta | \mathbf{t})\)を見ていこう。これは、データ\(\mathbf{t}\)が与えられたときの、超パラメータ\(\alpha\)と\(\beta\)の事後分布である。つまり、この項目は超パラメータの不確かさを表している。しかし、これは一般的に解析的には求められない。

そこで、以下の近似を用いる。 $$ p(t \mid \mathbf{t}) \simeq p(t \mid \mathbf{t}, \widehat{\alpha}, \widehat{\beta})=\int p(t \mid \mathbf{w}, \widehat{\beta}) p(\mathbf{w} \mid \mathbf{t}, \widehat{\alpha}, \widehat{\beta}) \mathrm{d} \mathbf{w} $$ ここで、\(\widehat{\alpha}\)と\(\widehat{\beta}\)は超パラメータの最適値(つまり、データに最も適合する値)とする。

 

この最適値\(\widehat{\alpha}\)と\(\widehat{\beta}\)はどのように探すのかについて、述べておく。

ベイズの定理より、\(\alpha\)と\(\beta\)の事後分布は

$$ p(\alpha, \beta \mid \mathbf{t}) \propto p(\mathbf{t} \mid \alpha, \beta) p(\alpha, \beta) $$

で与えられるので、エビデンス近似を考える今回では\(\widehat{\alpha}\)と\(\widehat{\beta}\)の値は\(p(\mathbf{t} \mid \alpha, \beta)\)を最大化することによって得ることができる。

 

\(p(\mathbf{t} \mid \alpha, \beta)\)この関数のことをエビデンスまたはエビデンス関数という

エビデンス関数の評価

周辺尤度関数\(p(\mathbf{t} \mid \alpha, \beta)\)は同時分布を重みパラメータ\(w\)に関して積分することによって得られる。

周辺尤度関数

$$
p(\mathbf{t} \mid \alpha, \beta)=\int p(\mathbf{t} \mid \mathbf{w}, \beta) p(\mathbf{w} \mid \alpha) \mathrm{d} \mathbf{w}
$$

この積分は、指数関数の中身を直接平方完成し、ガウス関数の正規化係数の一般形を用いることでこの積分を評価することができて、以下のように書ける

$$
p(\mathbf{t} \mid \alpha, \beta)=\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left(\frac{\alpha}{2 \pi}\right)^{M / 2} \int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w}
$$

ただし、\(M\)は\(w\)の次元数であり、

$$
\begin{aligned}
E(\mathbf{w}) & =\beta E_D(\mathbf{w})+\alpha E_W(\mathbf{w}) \\
& =\frac{\beta}{2}\|\mathbf{t}-\mathbf{\Phi} \mathbf{w}\|^2+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} .
\end{aligned}
$$

と定義している。

証明

$$
p(\mathbf{t} \mid \alpha, \beta)=\int p(\mathbf{t} \mid \mathbf{w}, \beta) p(\mathbf{w} \mid \alpha) \mathrm{d} \mathbf{w}
$$

\(p(\mathbf{t} \mid \mathbf{w}, \beta)\)は

$$
\ln p(\boldsymbol{t} \mid w, \beta)=\frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi)-\beta E_D(w)
$$

を変形することにより、

$$
p(\boldsymbol{t} \mid w, \beta)=\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}} \exp \left\{-\beta E_D(w)\right\}
$$

となる。ただし、\(E_D(w)=\frac{1}{2} \sum_{n=1}^N\left\{t-w^T \phi\left(x_n\right)\right\}^2\)である。

一方で、\(p(\mathbf{w} \mid \alpha) \)は

$$
\begin{aligned}
p(w \mid \alpha) & =N\left(w \mid 0, \alpha^{-1} I\right) \\
& =\left(\frac{1}{2 \pi}\right)^{\frac{M}{2}} \frac{1}{\left|\alpha^{-1} I\right|^{\frac{1}{2}}} \exp \left\{-\frac{1}{2} w^T \alpha I w\right\} \\
& =\left(\frac{1}{2 \pi}\right)^{\frac{M}{2}} \frac{1}{\alpha^{-\frac{M}{2}}} \exp \left\{-\frac{\alpha}{2} w^T w\right\} \\
& =\left(\frac{\alpha}{2 \pi}\right)^{\frac{M}{2}} \exp \left\{-\alpha E_W(w)\right\}
\end{aligned}
$$

となる。ただし、\(E_W(w)=\frac{1}{2} w^T w\)である。よってこれを代入すると

$$
\begin{aligned}
p(\boldsymbol{t} \mid \alpha, \beta) & =\int\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}} \exp \left\{-\beta E_D(w)\right\}\left(\frac{\alpha}{2 \pi}\right)^{\frac{M}{2}} \exp \left\{-\alpha E_W(w)\right\} d w \\
& =\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}}\left(\frac{\alpha}{2 \pi}\right)^{\frac{M}{2}} \int \exp \{-E(w)\} d w
\end{aligned}
$$

となる。ただし、\(E(w)=\beta E_D(w)+\alpha E_W(w)\)である。□

 

正則化二乗和誤差関数

この\(E(\mathbf{w})\)を\(\mathbf{w}\)に関して平方完成すれば

$$
E(\mathbf{w})=E\left(\mathbf{m}_N\right)+\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_N\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_N\right)
$$

を得ることができる。ここで、

$$
\mathbf{A}=\alpha \mathbf{I}+\beta \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi}
$$

とおき、さらに

$$
E\left(\mathbf{m}_N\right)=\frac{\beta}{2}\left\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}_N\right\|^2+\frac{\alpha}{2} \mathbf{m}_N^{\mathrm{T}} \mathbf{m}_N
$$

と定義している。

証明

$$
\begin{aligned}
\frac{\beta}{2}\|\mathbf{t}-\Phi \mathbf{w}\|^2+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} & =\frac{\beta}{2}\left(\mathbf{t}^{\mathrm{T}}-\mathbf{w}^{\mathrm{T}} \Phi^{\mathrm{T}}\right)(\mathbf{t}-\Phi \mathbf{w})+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} \\
& =\frac{\beta}{2}\left(\mathbf{t}^{\mathrm{T}} \mathbf{t}-2 \mathbf{t}^{\mathrm{T}} \boldsymbol{\Phi} \mathbf{w}+\mathbf{w}^{\mathrm{T}} \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi} \mathbf{w}\right)+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} \\
& =\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-2 \beta \mathbf{t}^{\mathrm{T}} \boldsymbol{\Phi} \mathbf{w}+\mathbf{w}^{\mathrm{T}} \mathbf{A} \mathbf{w}\right) \\
& =\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-2 \beta \mathbf{t}^{\mathrm{T}} \boldsymbol{\Phi} \mathbf{A}^{-1} \mathbf{A} \mathbf{w}+\mathbf{w}^{\mathrm{T}} \mathbf{A} \mathbf{w}\right) \\
& =\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-2 \mathbf{m}_N^{\mathrm{T}} \mathbf{A} \mathbf{w}+\mathbf{w}^{\mathrm{T}} \mathbf{A} \mathbf{w}+\mathbf{m}_N^{\mathrm{T}} \mathbf{A} \mathbf{m}_N-\mathbf{m}_N^{\mathrm{T}} \mathbf{A} \mathbf{m}_N\right) \\
& =\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-\mathbf{m}_N^{\mathrm{T}} \mathbf{A} \mathbf{m}_N\right)+\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_N\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_N\right)
\end{aligned}
$$

あとは、この式の第一項が\(E\left(\mathbf{m}_N\right)=\frac{\beta}{2}\left\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}_N\right\|^2+\frac{\alpha}{2} \mathbf{m}_N^{\mathrm{T}} \mathbf{m}_N\)が等しいことを示せばよいので

$$
\begin{aligned}
\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-\mathbf{m}_N^{\mathrm{T}} \mathbf{A} \mathbf{m}_N\right) & =\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-2 \mathbf{m}_N^{\mathrm{T}} \mathbf{A} \mathbf{m}_N+\mathbf{m}_N^{\mathrm{T}} \mathbf{A} \mathbf{m}_N\right) \\
& =\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-2 \mathbf{m}_N^{\mathrm{T}} \mathbf{A} \mathbf{A}^{-1} \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t} \beta+\mathbf{m}_N^{\mathrm{T}}\left(\alpha \mathbf{I}+\beta \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi}\right) \mathbf{m}_N\right) \\
& =\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-2 \mathbf{m}_N^{\mathrm{T}} \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t} \beta+\beta \mathbf{m}_N^{\mathrm{T}} \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi} \mathbf{m}_N+\alpha \mathbf{m}_N^{\mathrm{T}} \mathbf{m}_N\right) \\
& =\frac{1}{2}\left(\beta\left(\mathbf{t}-\Phi \mathbf{m}_N\right)^{\mathrm{T}}\left(\mathbf{t}-\Phi \mathbf{m}_N\right)+\alpha \mathbf{m}_N^{\mathrm{T}} \mathbf{m}_N\right) \\
& =\frac{\beta}{2}\left\|\mathbf{t}-\Phi \mathbf{m}_N\right\|^2+\frac{\alpha}{2} \mathbf{m}_N^{\mathrm{T}} \mathbf{m}_N
\end{aligned}
$$

よって示せた□

(A)について

\(A\)は誤差関数の二階導関数の行列(ヘッセ行列)となっている。

$$
\mathbf{A}=\nabla \nabla E(\mathbf{w})
$$

上の式では

$$
\mathbf{m}_N=\beta \mathbf{A}^{-1} \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t}
$$

と定義しているので\(\mathbf{A}=\mathbf{S}_N^{-1}\)が成り立ち、よってこの式は事後分布の平均を表す。

この結果から、周辺尤度の対数は以下のように表すことができる

対数エビデンス関数

$$
\ln p(\mathbf{t} \mid \alpha, \beta)=\frac{M}{2} \ln \alpha+\frac{N}{2} \ln \beta-E\left(\mathbf{m}_N\right)-\frac{1}{2} \ln |\mathbf{A}|-\frac{N}{2} \ln (2 \pi)
$$

右上のグラフが多項式の次数\(M\)とモデルエビデンスとの関係をプロットしたもので、\(M\)の値が3の時最も大きくなる

真ん中のグラフ(多項式の次数\(M\)と真のグラフに対する誤差との関係をプロットしたもの)を見ると、確かに\(M=3\)から\(M=8\)の間では変化せず、モデルの複雑さだけが上がっていくので右のグラフではその複雑さが増加することによるペナルティが効いてくる。

左のグラフの詳細
多項式曲線フィッティング入門!過学習を回避するL1/L2正則化に迫る!

最近のデータ解析や機械学習の分野で重要な役割を果たす多項式曲線フィッティング。 これは機械学習の基礎の基礎となる内容が詰め込まれており勉強になる。 その基本的な理解を深め、適切なモデル選択がいかに重要 ...

続きを見る

 

対数エビデンス関数を最大化

超パラメータ\(\alpha\)に関する最大化

では、先ほど得たエビデンス対数関数を\(\alpha\)に関して最大化してみよう

改めて関数を眺めてみると

$$
\ln p(\mathbf{t} \mid \alpha, \beta)=\frac{M}{2} \ln \alpha+\frac{N}{2} \ln \beta-E\left(\mathbf{m}_N\right)-\frac{1}{2} \ln |\mathbf{A}|-\frac{N}{2} \ln (2 \pi)
$$

この\(\frac{1}{2} \ln |\mathbf{A}|\)この項の行列式の計算が問題である。なぜなら行列\(\mathbf{A}\)は、\(\mathbf{A}=\alpha \mathbf{I}+\beta \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi}\)なので

$$
\left(\begin{array}{ccc}
\alpha+\sum_{i=1}^N \phi_0\left(\mathbf{x}_i\right) \phi_0\left(\mathbf{x}_i\right) & \cdots & \sum_{i=1}^N \phi_0\left(\mathbf{x}_i\right) \phi_{M-1}\left(\mathbf{x}_i\right) \\
\vdots & \ddots & \vdots \\
\sum_{i=1}^N \phi_{M-1}\left(\mathbf{x}_i\right) \phi_0\left(\mathbf{x}_i\right) & \cdots & \alpha+\sum_{i=1}^N \phi_{M-1}\left(\mathbf{x}_i\right) \phi_{M-1}\left(\mathbf{x}_i\right)
\end{array}\right)
$$

となっており、固有値を計算してから計算したほうが計算量が圧倒的に少なく済む

そのためにまず固有ベクトル方程式\(\left(\beta \boldsymbol{\Phi}^T \boldsymbol{\Phi}\right) \mathbf{u}_i=\lambda_i \mathbf{u}_i\)を考える。

 

 

\(\boldsymbol{A}=\alpha \boldsymbol{I}+\beta \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi}\)より\(\boldsymbol{A}\)は固有値\(\alpha+\lambda_i\)を持つことがわかる。

というわけで、\(\ln |\mathbf{A}|\)の項の\(\alpha\)に関する微分を考えると

$$
\frac{d}{d \alpha} \ln |\mathbf{A}|=\frac{d}{d \alpha} \ln \prod_i\left(\lambda_i+\alpha\right)=\frac{d}{d \alpha} \sum_i \ln \left(\lambda_i+\alpha\right)=\sum_i \frac{1}{\lambda_i+\alpha}
$$

となるので、結局対数エビデンス関数の\(\alpha\)に関する停留点は

$$
0=\frac{M}{2 \alpha}-\frac{1}{2} \mathbf{m}_N^{\mathrm{T}} \mathbf{m}_N-\frac{1}{2} \sum_i \frac{1}{\lambda_i+\alpha}
$$

\(2\alpha\)を両辺に掛けて整理すれば

$$
\alpha \mathbf{m}_N^{\mathrm{T}} \mathbf{m}_N=M-\alpha \sum_i \frac{1}{\lambda_i+\alpha}=\gamma \qquad \text{右辺をγと定義した}
$$

が得られる。よって

$$
\gamma=\sum_i \frac{\lambda_i}{\alpha+\lambda_i}
$$

と書くことができて、結局、周辺尤度を最大にする\(\alpha\)の値は

$$
\alpha=\frac{\gamma}{\boldsymbol{m}_N^T \boldsymbol{m}_N}
$$

を満たすことが分かる。

 

ここで注意しておきたいのは、\(\gamma\)は\(\alpha\)に依存するし、\(\boldsymbol{m}_N\)も\(\alpha\)に依存する。つまり、陰関数である。そこで次のような繰り返しの手順によって\(\alpha\)を推定する

α推定の手順

  1. \(\alpha\)の初期値を適当に決める
  2. \(\boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi}\)を最初だけでいいので固有値を計算しておく
  3. \(\mathbf{m}_N=\beta \mathbf{S}_N \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t}\)と\(\gamma=\sum_i \frac{\lambda_i}{\alpha+\lambda_i}\)を利用して\(\alpha\)を導出する
  4. 3を収束するまで繰り返す

この手順では、\(\alpha\)の値は純粋に訓練データだけから決定されているので、最尤推定の時のようにモデルの複雑さを最適化するための独立なデータ集合は必要ない。

超パラメータ\(\beta\)に関する最大化

同様に\(\left(\beta \boldsymbol{\Phi}^T \boldsymbol{\Phi}\right) \mathbf{u}_i=\lambda_i \mathbf{u}_i\)で定義される固有値は\(\beta\)に比例するので\(d \lambda_i / d \beta=\lambda_i / \beta\)より

$$
\frac{d}{d \beta} \ln |\mathbf{A}|=\frac{d}{d \beta} \sum_i \ln \left(\lambda_i+\alpha\right)=\frac{1}{\beta} \sum_i \frac{\lambda_i}{\lambda_i+\alpha}=\frac{\gamma}{\beta}
$$

が得られて結局停留点は

$$
0=\frac{N}{2 \beta}-\frac{1}{2} \sum_{n=1}^N\left\{t_n-\mathbf{m}_N^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_n\right)\right\}^2-\frac{\gamma}{2 \beta}
$$

整理して

$$
\frac{1}{\beta}=\frac{1}{N-\gamma} \sum_{n=1}^N\left\{t_n-\mathbf{m}_N^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_n\right)\right\}^2
$$

が得られる。これも\(\alpha\)と同じく\(\beta\)に関する陰関数であるので、また同じく繰り返し法によって

β推定の手順

  1. \(\beta\)を適当な初期値から始める
  2. \(\mathbf{m}_N=\beta \mathbf{S}_N \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t}\)と\(\gamma=\sum_i \frac{\lambda_i}{\alpha+\lambda_i}\)を利用して\(\beta\)を導出する
  3. 2を収束するまで繰り返す

 

有効パラメータ

得られたデータに対する尤度関数は\(\boldsymbol{w}_{\mathrm{ML}}\)(最尤推定値)を中心とし、等高線は楕円になる。そしてその固有値は曲率を表しその固有値が小さいほど楕円は固有ベクトルの方向に伸びる(半径が大きい)逆に固有値が大きいほど楕円はその固有ベクトルの方向には半径が小さい。

超パラメータ\(\alpha\)の解釈

\(\lambda_i\)が大きいとき、つまり\(\lambda_i \gg \alpha\)のとき、その方向のパラメータ\(w_i\)はデータによって強く制約され"well-determined"であると言える。逆に\(\lambda_i\)が小さいとき、つまり\(\lambda_i \ll \alpha\)のとき、その方向のパラメータ\(w_i\)はデータによって制約されず、事前分布によって値が小さく設定される。

上の図の場合、

$$
\begin{gathered}
\lambda_2 \gg \alpha \\
\frac{\lambda_2}{\lambda_2+\alpha} \simeq 1
\end{gathered}
$$

となるので\(w_2\)の方向に対しては、固有値\(\lambda_2\)は\(\alpha\)より大きいので\(\lambda_2 /\left(\lambda_2+\alpha\right)\)は1に近いよって対応するパラメータ\(w_2\)のモードは最尤推定値\(\boldsymbol{w}_{\mathrm{ML}}\)に近い。このようなパラメータは値がデータによって強く制約されることからwell-determinedパラメータと呼ばれる。

なんで最尤推定解に近づくの???

\(\lambda_i \gg \alpha\)のとき、その方向のパラメータ\(w_i\)が最尤推定解に近づく理由について、正則化二乗和誤差関数を使って説明しよう。この関数は以下のように表される:

$$ E(\boldsymbol{w})=\frac{\beta}{2}|\mathbf{t}-\boldsymbol{\Phi} \boldsymbol{w}|^2+\frac{\alpha}{2} \boldsymbol{w}^T \boldsymbol{w} $$

ここで、第一項はデータとモデルの予測との差の二乗和を表し、予測の誤差を測定している。一方、第二項はパラメータ\(\boldsymbol{w}\)の大きさの二乗和を表し、これは正則化項と呼ばれ、パラメータの値が大きくなりすぎることを抑制している。

さて、\(\lambda_i\)は設計行列\(\boldsymbol{\Phi}\)の固有値であり、設計行列が表すデータの分散を表す。したがって、\(\lambda_i \gg \alpha\)となるとき、それはデータのその方向の分散が大きいことを示している。このことは、その方向のパラメータ\(w_i\)がデータの予測に大きな影響を与えることを意味する。

この時、最尤推定解はデータの予測誤差を最小化するようにパラメータを選ぶ。つまり、\(\lambda_i \gg \alpha\)となるような方向のパラメータ\(w_i\)は、最尤推定解に近づくことで予測誤差を最小化する。

一方、\(\alpha\)は正則化項の強さを表す。正則化項はパラメータの大きさを制限し、過学習を防ぐ役割がある。しかし、\(\lambda_i \gg \alpha\)のとき、データのその方向の分散が大きいため、その方向のパラメータ\(w_i\)の影響は大きく、正則化項の影響が比較的小さくなる。つまり、正則化項によるペナルティよりも、データの予測誤差を小さくすることが優先される。

以上から、\(\lambda_i \gg \alpha\)のとき、その方向のパラメータ\(w_i\)は最尤推定解に近づくと言える。つまり、データのその方向の分散が大きい(つまり、その方向のパラメータがデータの予測に大きな影響を与える)場合、正則化項の影響を受けにくく、データの予測誤差を最小化することが優先されるためだ。□

他方、

$$
\begin{gathered}
\lambda_1 \ll \alpha \\
\frac{\lambda_1}{\lambda_1+\alpha} \simeq 0
\end{gathered}
$$

となるので\(w_1\)の方向に対しては、固有値\(\lambda_1\)は\(\alpha\)より小さいので\(\lambda_1 /\left(\lambda_1+\alpha\right)\)は0に近いよって対応するパラメータ\(w_1\)のモードも0に近いものとなる。

なんで0に近づくの???

それでは、\(\lambda_i \ll \alpha\)の場合に、パラメータ\(w_i\)が0に近づく理由について考えてみよう。前回と同様、正則化二乗和誤差関数は以下のように表される。

$$ E(\boldsymbol{w})=\frac{\beta}{2}|\mathbf{t}-\boldsymbol{\Phi} \boldsymbol{w}|^2+\frac{\alpha}{2} \boldsymbol{w}^T \boldsymbol{w} $$

ここで、\(\lambda_i\)は設計行列\(\boldsymbol{\Phi}\)の固有値であり、データの分散を表している。したがって、\(\lambda_i \ll \alpha\)となるとき、それはデータのその方向の分散が小さい、つまりデータにおけるその方向の情報量が少ないことを示している。そのため、その方向のパラメータ\(w_i\)がデータの予測に対して大きな影響を与えることはない。

このとき、正則化項である\(\frac{\alpha}{2} \boldsymbol{w}^T \boldsymbol{w}\)の影響が主要となる。この正則化項は、パラメータ\(\boldsymbol{w}\)の大きさを制限する役割があり、\(\boldsymbol{w}\)が大きくなるほど正則化項は大きくなる。したがって、正則化項を小さく保つためには、パラメータ\(\boldsymbol{w}\)を小さくする必要がある。

\(\alpha\)が\(\lambda_i\)よりも十分大きいとき、\(\boldsymbol{w}\)の大きさを制限する正則化の影響が強まり、その結果、\(w_i\)は0に近づく。つまり、データの分散が小さい方向(つまり、データにおけるその方向の情報量が少ない)のパラメータは、正則化によりその値が小さく抑制されるというわけだ。

つまり、「尤度関数の感度が悪い」というのは、具体的には「データのその方向の分散が小さい(情報量が少ない)ため、その方向のパラメータの変化が予測結果に大きな影響を与えない」ことを意味している。したがって、その方向のパラメータはデータからの情報により制約されず、正則化により0に近づく。

そして、\(\gamma\)は以下のように定義される:

$$ \gamma=\sum_i \frac{\lambda_i}{\alpha+\lambda_i} $$

これは全てのパラメータについて、その"well-determined"さを加重平均したものであり、"well-determined"なパラメータの有効数を表している。つまり、\(\gamma\)はデータによって強く制約され、事前分布の影響を受けにくいパラメータの数を表しているのだ。

Well-determinedパラメータ

まとめるとWell-deteminedパラメータとは\(\lambda_i \gg \alpha\)の向きに対応する\(w_i\)

  • データに強く制約される
  • 最尤推定解に近づく

そしてデータによって決まる有効パラメータ数は\(\gamma\)個

超パラメータ\(\beta\)の解釈

となっているのであった。

エビデンス関数の最大化と尤度関数の最大化の違いである。\(N-\gamma\)で割る意味を考えてみよう

1変数\(x\)のガウス分布の分散の最尤推定値は

$$
\sigma_{M L}^2=\frac{1}{N} \sum_{n=1}^N\left(x_n-\mu_{M L}\right)^2
$$

で与えられ、平均の最尤推定解はデータに含まれるノイズまでフィットしているため、上式はバイアスを含んでいる。平均の推定に実質的に自由度の一つを使ってしまっているので、分散の不偏推定量は次の形をとるのであった

$$
\sigma_{M A P}^2=\frac{1}{N-1} \sum_{n=1}^N\left(x_n-\mu_{M L}\right)^2
$$

さて今回の線形回帰モデルに対応する結果を考えてみる。目標分布の平均は\(M\)個のパラメータを含む関数\(\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})\)によって与えられる。しかしながら、全てのパラメータがデータに調整するわけでわなく、データによって決まる有効パラメータの数は\(\gamma\)であり、残りの\(M-\gamma\)個のパラメータは事前分布によって小さい値に設定される。このことは分散のベイズ推定の結果に反映されており、それにより最尤推定の結果のバイアスを補正している。

\(N \gg M\)の極限の状況を考える

\(N \gg M\)の極限の状況、すなわち、データ点の数がパラメータの数に比べて十分に大きい場合を考える。このときすべてのパラメータ\(w_i\)がWell-determinedパラメータどのパラメータ軸に対しても尤度関数が鋭く尖る。(固有値大=曲率大=半径小)

\(\boldsymbol{\Phi}^{\mathbf{T}} \boldsymbol{\Phi}(\mathrm{M} \times \mathrm{M})\)の固有値はデータ集合のサイズと共に大きくなる。

$$
\begin{array}{cc}
\alpha=\frac{\gamma}{\boldsymbol{m}_N^T \boldsymbol{m}_N} & E_W\left(\boldsymbol{m}_N\right)=\frac{1}{2} \boldsymbol{m}_N{ }^T \boldsymbol{m}_N \\
\frac{1}{\beta}=\frac{1}{N-\gamma} \sum_{n=1}^N\left\{t_n-\boldsymbol{m}_N^T \boldsymbol{\phi}\left(\mathbf{x}_n\right)\right\}^2 & E_D\left(\boldsymbol{m}_N\right)=\frac{1}{2}\left\|\mathbf{t}-\boldsymbol{\Phi} \boldsymbol{m}_N\right\|^2
\end{array}
$$

とさらに\(\gamma = M\)より

$$
\begin{aligned}
&\alpha=\frac{M}{2 E_W\left(\boldsymbol{m}_N\right)}\\
&\beta=\frac{N}{2 E_D\left(\boldsymbol{m}_N\right)}
\end{aligned}
$$

まとめ

線形モデルの利点と問題点

線形モデルの利点

  • \(w\)に対して線形性により、最小二乗問題の閉じた解が求まる。
  • ベイズ推定の計算が簡単
  • 基底関数を適切に選択すると\(x\)の非線形変換ができる

線形モデルの問題点

訓練データ集合を観測する前に基底関数を固定する問題→次元の呪い

つまり入力空間の次元\(D\)に対して指数的に基底関数の数を増やしていく必要がある。

 

 

データ集合の性質

線形モデルの問題点を軽減して実行するために以下のデータ集合に存在する性質を活用することが望ましい

データ集合の嬉しい性質

  • データベクトルの入力変数同士に強い相関がある
    データベクトルは概して本質的な次元数が入力空間の次元数よりも小さい非線形多様体上に大体分布しているという性質がある(主成分分析)
  • 目標変数は少数の次元に強く依存する

 

 

参考

 

 

-勉強, 数学, 機械学習/AI