時系列データを分析・予測する際にとても大事な概念に「定常性」の確認がある。
その確認に使われるADF検定が一体どういう仕組みで、どういう手順で検定するのかこの記事では分かりやすく解説してみる。
ADF検定とは?− 時系列データの安定性をチェックするツール
時系列データとは、時間の経過に伴って得られる一連のデータ点のことである。株価の推移や気温の変動など、日常生活でよく見かけるものだ。これらのデータが「定常」であるかどうかを調べるのがADF検定(Augmented Dickey-Fuller Test)の主な目的である。
定常性とは何か
定常性とは、データの統計的な性質が時間に依存しないという状態を指す。具体的には、データの平均や分散が時間経過によって変化しないといったことだ。定常性が確認できた場合、時系列データの未来の値を予測する際に有用なモデルを選ぶことができる。
ADF検定の基本概念
ADF検定は、単位根検定の一種である。単位根とは、時系列データが非定常であることを示す統計的な証拠だ。ADF検定の目的は、時系列データが単位根を持っている(非定常である)か、持っていない(定常である)かを判定することである。
数式で見るADF検定
ADF検定は以下の回帰モデルを考える。
ADF検定の回帰モデル
$$
\Delta y_t=\alpha+\beta t+\gamma y_{t-1}+\delta_1 \Delta y_{t-1}+\ldots+\delta_{p-1} \Delta y_{t-p+1}+\epsilon_t
$$
ここで、\(\Delta y_t\) は時刻 \(t\) での \(y\) の差分、\(\alpha, \beta, \gamma, \delta_1, \ldots, \delta_{p-1}\) はパラメータ、\(\epsilon_t\) は誤差項である。
このモデルにおいて、\(\gamma = 0\) かどうかを調べる。もし \(\gamma = 0\) ならば、データは定常であると判断できる。
何を「拡張」したものなの??
ADF検定は拡張ディッキー–フラー検定と呼ばれる。ここでは最も基本的な例を用いて何からの「拡張」なのか見てみよう
予測対象となる変数を\(y_t\)とすると、AR(1)モデル(自己回帰モデル)は以下のように書くことができる。
$$
y_{t+1}=a_0+a_1 \times y_t+\epsilon_t
$$
ここでは、\(a_0,a_1\)は係数、\(\epsilon_t\)は時刻\(t\)における回帰の誤差項である。
式からも分かる通り\(a_0,a_1\)の値が分かれば時刻\(t\)のデータ\(y_t\)から時刻\(t+1\)の\(y_(t+1)\)を推定することができる。
AR(1)モデルと呼ばれるのは過去の1つの値のみを、つまり\(y_(t+1)\)の予測に\(y_t\)の値のみを利用しているからであり、例えばもう一つ前の値\(y_(t-1)\)を使えばAR(2)モデルとなる。
誤差項については線形回帰であることから平均0、一定の分散値をとることを仮定しており、各時刻\(t\)に対して独立であるとする。
データ\(y_t\)が(弱)定常性を持つことを数式で表すと、
$$
\begin{aligned}
& E\left(y_t\right)=\mu \\
\operatorname{Cov}\left(y_t, y_{t-j}\right)= & E\left[\left(y_t-\mu\right)\left(y_{t-j}-\mu\right)\right]=\gamma_j
\end{aligned}
$$
ここでは、期待値をE,共分散値をCovと表している。これは時刻\(t\)によらずに、データの期待値が一定であり、ラグ\(j\)に対して自身の共分散が一定であるということを示している。
ここから、データが定常性を持つかどうか検定してみると、定常性の条件から
$$
E\left(y_{t+1}\right)=E\left(y_t\right)=\mu
$$
であるので、
$$
\begin{gathered}
\mu=a_0+a_1 \mu \\
a_0=\left(1-a_1\right) \mu
\end{gathered}
$$
と係数\(a_0\)を期待値\(\mu\)を用いて表すことができる。これをAR(1)モデルに代入し両辺から\(\mu\)を引いた上で変換すると
$$
y_{t+1}-\mu=\left(1-a_1\right) \mu+a_1 y_t+\epsilon_t-\mu=a_1\left(y_t-\mu\right)+\epsilon_t
$$
と表される。\(t\)の値を再帰的に減らすことを繰り返し一般的に表すと
$$
y_{t+1}-\mu=\sum_{i=0}^{\infty} a_1^i \epsilon_{t-i}
$$
と変形できて、各誤差項は独立なので
$$
E\left[\left(y_t-\mu\right) \epsilon_t\right]=0
$$
という結果が得られて、これは\(y_t\)と\(\epsilon_t\)の共分散が0であることを表している。つまり、AR(1)モデルに対して時系列データ\(y_t\)を当てはめた結果の誤差項\(\epsilon_t\)と元データ\(y_t\)は独立であるということが言える。
このことを用いて、同様にAR(1)モデルで分散について考えると、\(\epsilon_t\)と\(y_t\)が独立であるので
$$
\operatorname{Var}\left(y_{t+1}\right)=\operatorname{Var}\left(a_0+a_1 y_t+\epsilon_t\right)=a_1^2 \operatorname{Var}\left(y_t\right)+\operatorname{Var}\left(\epsilon_t\right)
$$
と表すことができて、定常性の条件から各時刻\(t\)での\(y_t\)の分散の値は一定であるので
$$
\operatorname{Var}\left(y_t\right)=\frac{\operatorname{Var}\left(\epsilon_t\right)}{1-a_1^2}
$$
分散の値は常に0以上なので\(a_1\)の値が\(-1<a_1<1\)の範囲にあることが、AR(1)モデルが定常性を持つことの必要十分条件であるということが導くことができた。
拡張する前のDF検定(ディッキー–フラー検定)ではAR(1)モデルのように
$$
\Delta y=y_{t+1}-y_t=(\phi-1) y_t+\epsilon_t
$$
という回帰式を取り、この\(\phi\)の値が1であるかどうかを検定するというような方法で行う。
先ほどの計算はAR(1)モデルのラグ1の変数の係数が-1より大きく1未満の範囲にあることが定常性の必要十分条件だったわけだが
ADF検定はこのDF検定のラグを拡張したものである。
なぜADF検定が必要か
時系列データの分析は多くの場面で重要であるが、定常性が確認できないと、未来予測やその他の高度な分析手法が信頼できない結果をもたらす可能性が高い。ADF検定は、そのようなリスクを事前に評価する手段として広く用いられている。
単位根とは何か?
単位根という言葉は、時系列データの分析において頻繁に出てくる。このセクションでは、単位根が何であり、なぜ重要なのかを明らかにする。
単位根の定義
単位根とは、時系列データが非定常であることを示す統計的な証拠の一つである。数学的には、時系列データを表す差分方程式が、特定の条件下で解が発散する性質を持つ場合に、そのデータには「単位根」が存在するとされる。具体的には、以下のような自己回帰モデル(ARモデル)が考えられる。
$$
y_t=\rho y_{t-1}+\epsilon_t
$$
ここで\(\rho\)は自己回帰係数、\(\epsilon_t\)は誤差項である。このモデルにおいて、\(\rho=1\)の場合、データは単位根を持つとされる。
単位根の問題点
単位根が存在すると、データは非定常である。非定常なデータでは、時間によって平均や分散が変わる可能性があり、これが未来予測や他の統計的手法に悪影響を及ぼす。たとえば、非定常なデータに基づいて未来を予測するモデルを作った場合、その予測結果はあてにならない可能性が高い。
単位根の検定
単位根の有無を確認する方法が、先に述べたADF検定である。ADF検定によって、データが非定常であるか、定常であるかの判断が可能となり、それに応じて適切な時系列分析の手法を選べるようになる。
ADF検定の前提条件 − 何を知っておくべきか
ADF検定(Augmented Dickey-Fuller Test)は、単位根が存在するか否かを判定するための強力なツールである。しかし、この検定を適切に実施するためには、いくつかの前提条件と注意点が存在する。以下でそれらを解説する。
データの構造
まず最初に考慮すべきはデータの構造である。ADF検定は一般に単変量の時系列データに適用される。多変量時系列データに対する適用も可能ではあるが、その場合はより高度な検定手法が必要となる場合もある。
欠損値の処理
次に、データに欠損値が存在する場合、その処理方法を明確にしておく必要がある。欠損値があると、検定結果が不正確になる可能性がある。欠損値の処理方法としては、補間や削除が一般的である。
データの季節性
ADF検定は原則として非季節性データに対して用いられる。もしデータに明確な季節性が見られる場合は、季節調整を行った上で検定を実施することが推奨される。
誤差項の独立性
ADF検定の理論は、誤差項が独立であることを前提としている。もしデータに自己相関が存在する場合、その影響を除去する処理が必要である。
ラグの選択
ADF検定では、ラグ(遅延)の長さを選択する必要がある。これは自己相関を考慮する際に重要なパラメータであり、選択によって検定結果が変わる可能性がある。
実践ガイド − ADF検定の手順
ADF検定の前提条件についての基本的な知識があると仮定して、具体的な手順について解説する。
ADF検定の手順
- データの準備
- データの可視化
- ラグの選択
- ADF検定の実施
- 結果の解釈
- 追加分析(必要ならば)
1. データの準備
まず、分析対象となる時系列データを用意する。このデータには欠損値がないこと、また季節性が除去されていることが望ましい。データが多変量の場合は、単変量データに変換するか、適切な多変量時系列分析手法を選ぶ。
2. データの可視化
時系列データをプロットして視覚的に確認する。この段階でデータにトレンドや季節性が見られる場合、それらを除去するための処理が必要である。
3. ラグの選択
ADF検定におけるラグ(遅延)の長さを選択する。多くの統計ソフトウェアは自動的にラグを選択するオプションを提供しているが、手動で選択することも可能である。
4. ADF検定の実施
選択されたラグを用いてADF検定を実施する。これにより、データに単位根が存在するか否かが判定される。検定統計量とそのp値が計算される。
5. 結果の解釈
計算されたp値を用いて、単位根が存在するかどうかを判断する。一般的に、p値が0.05以下であれば単位根が存在しないと判断される。それ以上の場合は、単位根が存在する可能性が高い。
6. 追加分析(必要な場合)
p値が0.05以上であった場合、差分をとって再度ADF検定を行うなどの追加分析が必要な場合もある。また、他の時系列分析手法と組み合わせることで、より信頼性の高い結果を得ることが可能である。
p値について
統計学において「p値(p-value)」は非常に重要な概念である。p値は、統計的仮説検定において、帰無仮説が正しい場合に得られたデータ以上に極端なデータが観測される確率を表す。めちゃめちゃ分かりやすく言うと、p値は「驚き」を数値で表している。具体的には、ある仮説(考え)が正しいとしたら、今回得られたデータはどれだけ驚くべきか、つまりはどれだけ「ありえないか」を計る指標である。
仮説検定には「帰無仮説(null hypothesis)」と「対立仮説(alternative hypothesis)」が存在する。帰無仮説は、検証したい仮説の否定形であり、対立仮説は検証したい仮説そのものである。
例えば、ある薬が効果があると言いたい場合、帰無仮説は「この薬は効果がない」となる。そして、その帰無仮説が正しい場合に、現在のデータがどれだけありえないのかを数値で表すのがp値である。
p値が非常に小さい場合(一般的には0.05以下)、それは帰無仮説が正しい場合に、今回得られたようなデータが観測される確率が非常に低いということを意味する。この場合、帰無仮説は棄却され、対立仮説が採択される。
逆にp値が大きい場合、帰無仮説が正しくても現在のデータは十分にありえると解釈され、帰無仮説は棄却されない。
多くの研究で、p値の閾値として0.05が用いられる。この0.05を「有意水準(αレベル)」と呼ぶ。ただし、αレベルは研究者が任意で設定できるため、必ずしも0.05である必要はない。
まとめ
この記事では、ADF検定について総合的に解説した。弱定常性の概念とその重要性、単位根の基礎、ADF検定の前提条件、そして具体的な手順について段階的かつ丁寧に説明した。この知識があれば、時系列データが持つ構造についての初歩的な理解が得られ、更に高度な時系列分析へと進む礎となるであろう。
参考先