勉匷 æ•°å­Š 機械孊習

【確率論】頻床䞻矩ずベむズ䞻矩、尀床関数の最倧化したい理由を解説【機械孊習】

さおいよいよベむズ確率に入っおいく。

今回の蚘事ではこれたで芋おきた䞀般的な確率ずベむズ確率がどのように違うのか、そしお尀床関数の最倧化ずいう芖点がなぜ必芁なのかを芋おいく。

ベむズ確率は機械孊習を孊ぶ䞊で避けおは通れない抂念であり、この蚘事はその抂芳を぀かむ䞀助になるかもしれない。

 

頻床䞻矩ずベむズ䞻矩

いよいよ、ベむズ確率ずいうものに぀いお詳しく芋おいく。

ベむズ確率ずいうものを理解するために、これたで䜿甚しおきた頻床䞻矩的な確率ずどう違うものなのか比べおみよう。ベむズ的な確率ず頻床䞻矩的な確率ずいうのはしばしば察比されお語られおいる。

 

頻床䞻矩的確率は、同じ詊行を繰り返し行うこずによっお確率が定矩される。具䜓的には、同じ条件で詊行を無限回行ったずき、ある事象が発生する割合をその事象の確率ずする。䟋えば、コむンを投げたずきに衚が出る確率は、無数にコむンを投げ続けた堎合の衚が出る割合で定矩される。

䞀方、ベむズ確率は、䞻芳的な信念の床合いを衚珟する。信念ずは個人が持っおいる事柄に察する確信や刀断のこずで、ある事象が起こる確率を、持っおいる情報を元に刀断し、新しい情報が入るたびにその確率を曎新する。ベむズ確率は、事象の確率を盎接蚈算するのではなく、ある状況䞋での確率を評䟡する際に、芳察デヌタや事前知識などの情報を考慮しお確率を曎新する手法を甚いる。
ベむズ確率では、䞻芳的な信念の床合いを衚す確率を、芳枬デヌタや事前知識に基づいお曎新するこずで、より珟実に即した確率評䟡が可胜ずなる。この手法は、䞍確かな情報が倚い珟実䞖界の問題に察しお、柔軟な察応ができるため、機械孊習や統蚈的掚論など様々な分野で甚いられおいる。

具䜓䟋

具䜓䟋を䜿っお、ベむズ確率ず頻床䞻矩的確率の違いを説明しよう。䟋ずしお、ある病気の怜査キットがあるずする。この怜査キットは、感染者に察しお99%の正確さで陜性を瀺し、非感染者に察しお99%の正確さで陰性を瀺す。

ある人が怜査を受けお陜性ず刀定された堎合、その人が実際に病気である確率は、頻床䞻矩的確率ずベむズ確率でどのように評䟡されるかを考える。

頻床䞻矩的確率では、陜性が出た堎合のその人が実際に病気である確率は、怜査キットの陜性の正確さ99%をそのたた䜿うこずになる。

しかし、ベむズ確率では、その人が病気である確率は、怜査結果だけでなく、病気の眹患率やその人の幎霢・性別などの情報も考慮する。䟋えば、その病気の眹患率が1%だずするず、

$$ P(病気|陜性) = \frac{P(陜性|病気)P(病気)}{P(陜性)} $$

を䜿っお、その人が実際に病気である確率を蚈算できる。ここで、\(P(病気|陜性)\)は陜性の結果が出た堎合に実際に病気である確率を衚し、\(P(陜性|病気)\)は病気の人に察しお怜査が陜性を瀺す確率99%、\(P(病気)\)は病気の眹患率1%である。

さらに、\(P(陜性)\)は、党おの人に察しお陜性の結果が出る確率で、これは病気の人ず病気でない人がそれぞれ陜性の結果が出る確率の和である。぀たり、

$$ P(陜性) = P(陜性|病気)P(病気) + P(陜性|病気でない)P(病気でない) $$

である。ここで、\(P(陜性|病気でない)\)は病気でない人に察しお怜査が陜性を瀺す確率1%、\(P(病気でない)\)は病気でない確率99%である。

この匏に数倀を代入するず、$$ P(陜性) = 0.99 \times 0.01 + 0.01 \times 0.99 $$ ずなる。そしお、$$ P(病気|陜性) = \frac{0.99 \times 0.01}{0.99 \times 0.01 + 0.01 \times 0.99} $$ を蚈算するず、その人が実際に病気である確率はおおよそ50%であるこずが分かる。

このように、ベむズ確率では、怜査結果だけでなく、病気の眹患率やその人の幎霢・性別などの情報も考慮しお確率を評䟡し、頻床䞻矩的確率ずは異なる結果が埗られるこずがある。この䟋からも分かるように、ベむズ確率はデヌタや事前の知識をもずに確率を曎新し、より珟実的な刀断を行うこずができるず蚀える。

 

前回の確率論の蚘事で芋たように、ベむズの定理によっお芳枬されたデヌタで䞎えられた蚌拠を取り蟌むこずで、事前確率を事埌確率に倉換できた。

ずいうわけで倚項匏曲線フィッティングの䟋を甚いお、ベむズの定理を再確認しおいく。\(p(w)\) は事前確率分垃、\(D=\{t_1,\dots,t_N\}\)ずしお

$$ p(w|D) = \frac{p(D|w)p(w)}{p(D)} $$

ここで、\(p(D|w)\) は尀床関数ずいい、\(p(w|D)\) は事埌確率分垃ずいう。たた、\(p(D)\) は芳枬デヌタDの確率で、次のように求められる。

$$ p(D) = \int p(D|w')p(w')dw $$

次に、尀床関数に぀いお説明しよう。尀床関数は、あるパラメヌタwのもずで芳枬デヌタDがどれだけ起こりやすいかを衚す関数である。尀床関数は次のように衚される。

$$ p(D|w) = \prod_{n=1}^{N} p(t_n|w) $$

尀床関数は、各デヌタ点が独立に生成されるず仮定するこずで、芳枬デヌタD党䜓の確率を各デヌタ点の確率の積ずしお衚珟できる。

尀床関数は、あるパラメヌタ \(w\)のもずで芳枬デヌタ \(D\) がどれだけ起こりやすいかを衚す関数である。ここで蚀う「起こりやすい」ずは、芳枬デヌタ \(D\) が埗られる確率が高いずいうこずである。

この確率が高いずいうこずは、モデルパラメヌタ \(w\) がデヌタ \(D\) を生成する過皋をうたく衚珟しおいるこずを意味する。蚀い換えれば、モデルがデヌタの特城や構造を捉えおいるため、デヌタを説明できおいるず蚀えるのである。

尀床関数が高いモデルは、芳枬デヌタ \(D\) が起こりやすいこずから、デヌタを生成する過皋を正確に捉えおいるず考えられる。芁するに、尀床関数が高いほど、そのモデルがデヌタを説明する胜力が高いずいうこずである。

぀たり我々は尀床関数の最倧化に興味があるのである。

 

事前確率分垃は、芳枬デヌタが埗られる前に、パラメヌタwに察しお䞎えられる確率分垃である。これにより、パラメヌタの初期的な信念を衚珟できる。䟋えば、正芏分垃や䞀様分垃などが事前確率分垃ずしお䜿われるこずがある。

以䞊の説明から、ベむズの定理は事前確率分垃ず尀床関数を甚いお、芳枬デヌタDが䞎えられたずきのパラメヌタwの事埌確率分垃を求める方法であるこずが分かる。これにより、デヌタを甚いおパラメヌタの掚定が可胜ずなる。

 

尀床関数に぀いお

ここで尀床関数ずいう重芁単語が出おきたが、頻床䞻矩ずベむズ䞻矩では、尀床関数が異なる圹割を果たす。

頻床䞻矩における尀床関数

たずは、頻床䞻矩における尀床関数の圹割に぀いお説明しよう。頻床䞻矩では、尀床関数がパラメヌタの倀を決定するために䜿われる。尀床関数は、あるパラメヌタのもずで芳枬デヌタがどれだけ起こりやすいかを衚す。頻床䞻矩者は、尀床関数を最倧化するパラメヌタを最尀掚定倀ずしお遞ぶ。これは、芳枬デヌタが最も起こりやすいずされるパラメヌタを遞ぶこずを意味する。

ここで最尀掚定をする際には尀床関数の察数の笊号を反転したものが機械孊習の分野ではよく䜿われる。これは誀差関数ず蚀われ、察数を取る理由は数孊的な蚈算を単玔化するだけでなく、数倀蚈算する際に小さな確率倀を掛け合わせ続けるずずおも小さくなっおいっおしたっお取り扱いづらくなっおしたうが、察数であれば和の蚈算をするこずになるのでこの問題を解決できる。
察数のマむナスは単調珟象関数なので、尀床関数の最倧化は誀差の最小化ず同じこずなのである。

【頻床䞻矩的】ブヌトストラップ

ブヌトストラップずは、頻床䞻矩的なアプロヌチで誀差関数や掚定倀の信頌区間を決定する方法である。

  1. 元のデヌタセット最初に、芳枬デヌタセットDが存圚するず仮定する。このデヌタセットは、N個の芳枬倀から構成されおいる。
  2. リサンプリングブヌトストラップの䞻芁な考え方は、元のデヌタセットからランダムにデヌタ点を遞び出し重耇を蚱す、新しいデヌタセットを䜜成するこずである。これをリサンプリングず呌ぶ。新しいデヌタセットは、元のデヌタセットず同じサむズN個である。
  3. ブヌトストラップサンプルリサンプリングを行うこずで埗られた新しいデヌタセットをブヌトストラップサンプルず呌ぶ。ブヌトストラップサンプルは元のデヌタセットの特性を匕き継いでいるず考えられる。
  4. 掚定量の蚈算ブヌトストラップサンプルを䜿っお、掚定量たずえば平均、分散などを蚈算する。この蚈算は、元のデヌタセットに察しお行われるのず同じ方法で行う。
  5. 繰り返しステップ2から4を耇数回通垞は数癟数千回繰り返す。これにより、ブヌトストラップサンプルごずの掚定量の分垃が埗られる。
  6. 誀差関数や信頌区間の決定ブヌトストラップサンプルごずの掚定量の分垃を甚いお、誀差関数や信頌区間を蚈算する。䟋えば、分垃の䞭倮倀や平均を誀差関数の掚定倀ずしお遞ぶこずができる。信頌区間は、掚定量の分垃の特定のパヌセンタむル䟋えば、2.5%点ず97.5%点に基づいお決定される。

このように、ブヌトストラップはランダムなリサンプリングを繰り返すこずで、誀差関数や信頌区間を決定する手法である。これにより、元のデヌタセットの特性を保持し぀぀、様々な掚定量やその信頌性を評䟡するこずができる。ブヌトストラップは、デヌタが少ない堎合や、デヌタの分垃が正芏分垃ではない堎合でも有効な手法であるため、頻床䞻矩的なアプロヌチの䞀぀ずしお広く利甚されおいる。

ただし、ブヌトストラップにはいく぀かの泚意点があるこずを理解しおおく必芁がある。

  1. 元のデヌタセットの代衚性ブヌトストラップは、元のデヌタセットが母集団を適切に代衚しおいるこずを前提ずしおいる。もし元のデヌタセットが偏っおいたり、母集団の特性を十分に捉えおいない堎合、ブヌトストラップによる掚定結果も正確でない可胜性がある。
  2. ブヌトストラップサンプルの独立性ブヌトストラップサンプルはリサンプリングによっお生成されるため、それぞれのサンプルが独立であるずは限らない。これにより、掚定結果に盞関が生じるこずがある。
  3. 掚定量の分垃の正確性ブヌトストラップによっお埗られた掚定量の分垃が、母集団の真の分垃を正確に反映しおいるずは限らない。特に、デヌタ数が少ない堎合やデヌタの分垃が耇雑な堎合には、この問題が顕著になるこずがある。

ブヌトストラップは、頻床䞻矩的なアプロヌチで誀差関数や信頌区間を決定する際に䟿利な手法であるが、その適甚にあたっおは泚意が必芁である。それでも、ブヌトストラップは、統蚈的掚定の分野で非垞に䞀般的か぀有甚な手法ずしお広く甚いられおいる。

 

ベむズ䞻矩における尀床関数

次に、ベむズ䞻矩における尀床関数の圹割に぀いお説明しよう。ベむズ䞻矩では、尀床関数が事埌確率の蚈算に甚いられる。事埌確率は、芳枬デヌタが䞎えられたずきのパラメヌタの確率分垃を衚す。ベむズの定理を䜿っお、事前確率ず尀床関数から事埌確率を求めるこずができる。぀たりは、事前知識を自然な圢で入れられるずいうこずで、これはベむズ䞻矩の倧きな利点である。

䟋えば、公平なコむンを䞉回投げお党お衚だったずするず、頻床䞻矩的な最尀掚定では衚が出る確率がになっおしたう。これは未来氞劫衚が出るずいうこずであり、極端な結論を出しうるものである。ベむズ的に考えればこのような結論には至らない。

 

これだけ聞くず、ベむズ䞻矩はいいずころしかないように思うかもしれないが、ベむズ的なアプロヌチによくある批刀ずしお、事前分垃の遞び方に個人差があり、結果が䞻芳的になっおしたうずいうものがある。これを解決するために、無情報事前分垃が考えられた。

無情報事前分垃は、パラメヌタに぀いお事前に䜕も知らない状態を衚珟する。これにより、芳枬デヌタだけで結果が決たり、個人差が小さくなる。無情報事前分垃の䞀䟋ずしお、䞀様分垃が挙げられる。䞀様分垃では、パラメヌタのすべおの倀に察しお同じ確率を割り圓おるこずで、事前の情報を持たない状態を衚珟する。

しかし、無情報事前分垃を䜿甚した堎合、異なるモデルを比范する際に困難が生じるこずがある。その理由は、無情報事前分垃が、パラメヌタ空間党䜓にわたっお䞀定の確率を持぀ため、モデル間でパラメヌタ空間の倧きさが異なる堎合、比范が難しくなるからである。

具䜓䟋ずしお、2぀のモデルを考える。1぀目のモデルでは、パラメヌタ\(\theta\)が0から1の範囲で䞀様に分垃しおいるずする。2぀目のモデルでは、パラメヌタ\(\theta\)が0から10の範囲で䞀様に分垃しおいるずする。無情報事前分垃を甚いるず、それぞれのモデルにおいお、パラメヌタに察する事前知識がないず仮定しおいるが、2぀のモデルのパラメヌタ空間の倧きさが異なるため、それぞれのモデルの事埌分垃が埗られおも、比范が難しくなる。

この問題を解決するために、モデル比范には別の手法を甚いるこずが䞀般的である。䟋えば、ベむズ因子や、赀池情報量芏準AICなどのモデル遞択基準が䜿甚されるこずがある。これらの基準を甚いるこずで、無情報事前分垃を䜿甚した堎合でも、異なるモデルの比范を適切に行うこずができる。

ベむズ因子は、モデル間の尀床比を蚈算するこずで、モデルの良さを評䟡する指暙である。尀床は、芳枬デヌタが埗られたずきのモデルの適合床を衚すため、ベむズ因子はモデル遞択に適しおいる。ベむズ因子が倧きいほど、そのモデルが芳枬デヌタに適合しおいるず刀断される。

赀池情報量芏準AICは、モデルの適合床ずモデルの耇雑さを同時に考慮する指暙である。AICは、尀床に察しおパラメヌタの数に応じたペナルティを加えるこずで、モデルの耇雑さを評䟡する。AICが小さいほど、そのモデルが芳枬デヌタに適合しおいるず刀断される。

無情報事前分垃を甚いたベむズ䞻矩においお、異なるモデルを比范する際には、ベむズ因子やAICなどのモデル遞択基準を甚いるこずが䞀般的である。これにより、モデル間の比范を適切に行い、最も芳枬デヌタに適合するモデルを遞択するこずができる。このようなモデル遞択手法を適甚するこずで、無情報事前分垃の問題点を克服し、ベむズ䞻矩においおも適切なモデル遞択が可胜ずなる。

 

結局どう違うのか

頻床䞻矩デヌタを生成しおいる真の分垃は䞀぀ず仮定
ベむズ䞻矩:パラメヌタも確率分垃を持぀ず考える

頻床䞻矩ベむズ䞻矩
パラメヌタ(w)定数確率倉数
デヌタ(D)確率倉数確率倉数

頻床䞻矩ずベむズ䞻矩における母数パラメヌタずデヌタに぀いお説明しよう。

たず、頻床䞻矩では、母数は未知の定数ずしお扱われる。これは、母数が実際には固定されおいる倀を持っおいるが、我々はその倀を知らないずいう考え方に基づいおいる。䞀方、デヌタは確率倉数であり、暙本を取るたびに異なる倀が埗られるず考えられる。このため、頻床䞻矩では、繰り返し実隓を行うこずでデヌタの分垃や母数の掚定に関する確率的な性質を調べる。

次に、ベむズ䞻矩では、母数は確率倉数ずしお扱われる。これは、母数に察しお確率分垃を割り圓おるこずで、我々の䞍確実性を衚珟するためである。事前分垃は、デヌタが埗られる前の母数に察する信念を衚し、デヌタが芳枬された埌、事埌分垃を甚いお母数の信念を曎新する。䞀方、デヌタも確率倉数であり、母数が䞎えられた条件䞋でのデヌタの分垃を衚す尀床関数によっおモデル化される。

芁玄するず、頻床䞻矩では母数は未知の定数、デヌタは確率倉数ずしお扱われる。䞀方、ベむズ䞻矩では母数もデヌタも確率倉数ずしお扱われる。これらの違いは、頻床䞻矩が繰り返し実隓を行い、確率的な性質を調べるこずに焊点を圓おおいるのに察し、ベむズ䞻矩は母数に察する信念を確率分垃ずしお衚珟し、デヌタを甚いお信念を曎新するこずに重点を眮いおいるこずに由来する。

 

頻床䞻矩ずベむズ䞻矩の䞖界芳の違い

出兞

頻床䞻矩の最尀掚定法は最倧化される点にのみに興味があったが、ベむズ䞻矩的アプロヌチは山党䜓の圢に興味があるずいうこずである。぀たりざっくりずらえるず。

頻床䞻矩ただ䞀぀の最適な倀をずらえおいこうずする考え方
ベむズ䞻矩䞀぀に限定するのではなく、最適な倀を含む分垃をずらえおいこうずいう考え方。

 

頻床䞻矩VSベむズ䞻矩

どちらのアプロヌチが優れおいるかは、問題や目的によっお異なる。頻床䞻矩ずベむズ䞻矩のそれぞれの長所ず短所を怜蚎しよう。

頻床䞻矩ベむズ䞻矩
長所
  1. 客芳性: デヌタから盎接母数を掚定し、個人的な信念が結果に圱響を䞎えない。
  2. 倧暙本性質: 倧量のデヌタが利甚可胜な堎合、掚定量はしばしば良い性質を持぀。
  1. 小暙本性質: デヌタが少ない堎合でも、事前分垃を適切に蚭定するこずで良い掚定が可胜。
  2. 䞍確実性の衚珟: 事埌分垃によっお母数の䞍確実性が確率的に衚珟される。
短所
  1. 小暙本性質: デヌタが少ない堎合、掚定量は䞍安定になるこずがある。
  2. 点掚定: 掚定量は点で衚されるため、䞍確実性が十分に衚珟されないこずがある。
  1. 䞻芳性: 事前分垃の遞択に䞻芳が関䞎するこずがある。
  2. 蚈算負荷: 事埌分垃の蚈算が耇雑で、蚈算負荷が高くなるこずがある。

どちらのアプロヌチが適切かは、問題の性質やデヌタの量、目的によっお決たる。客芳性が重芁で倧量のデヌタが利甚可胜な堎合、頻床䞻矩が適切であるこずがある。䞀方、デヌタが少ない堎合や䞍確実性を考慮したい堎合、ベむズ䞻矩が適切であるこずがある。このバトルのポむントを䞀蚀で蚀えば「どこたで䞻芳性を認めるか」ずいう哲孊的な問題ずなる。埓っおいろいろな意芋があり、単玔なものではないずいうこずである。
これからの方針ずしおは、実甚性や有甚性を重芖しおどっちも䞡面で採甚しおいくずいうスむスのような立堎をずっおいくこずにする。

 

 

 

-勉匷, æ•°å­Š, 機械孊習