多変量解析入門 解答 第5章

第5章 モデル評価基準

 各省でも少し扱ってきたAICなどに加えて、BICベイズ型モデル評価基準)やクロスバリデーションなどの評価方法。

多変量解析入門――線形から非線形へ

多変量解析入門――線形から非線形へ

 

 

 他の章の解答はこちら

yosuke-programing.hatenadiary.com

 

問5.1 K.L情報量

K.L情報量とは

平均的な良さ、真のモデルとの違いを計算するモデルである。


g(Z)が、真のモデル、f(Z|\boldsymbol{\hat{\theta}})が予測したモデル

I\{g(z), f(Z|\boldsymbol{\hat{\theta}})\} = E_G\left[log\frac{g(Z)}{f(Z|\boldsymbol{\hat{\theta}})}\right]

 

解答

今回の問題は、性質を計算で確かめる問題

(i)

I\{g(z), f(Z|\boldsymbol{\hat{\theta}})\} = E_G\left[log\frac{g(Z)}{f(Z|\boldsymbol{\hat{\theta}})}\right]\geqq 0

を示す。

$$g(Z)が、真のモデル、f(Z|\boldsymbol{\hat{\theta}})が予測したモデル


I\{g(z), f(Z|\boldsymbol{\hat{\theta}})\} = E_G\left[log\frac{g(Z)}{f(Z|\boldsymbol{\hat{\theta}})}\right]

 

中身を考えると、
今回は離散でやる

I\{g(z), f(Z|\boldsymbol{\hat{\theta}})\} = E_G\left[log\frac{g(Z)}{f(Z|\boldsymbol{\hat{\theta}})}\right]
=\sum^\infty_{-\infty}\left\{log\frac{g(z)}{f(z|\boldsymbol{\hat{\theta}})}\right\}g(z)\\ \geqq\sum^\infty_{-\infty}g(z) - f(z|\boldsymbol{\hat{\theta}}) = 0
これは、
log\frac{p}{q} \geqq 1 - \frac{q}{p}\\
を用いた。微分して極限とると分かる。

(ii)logの中身が1になるため log 1 = 0

 

問5.2

今回は、KL情報量の具体例。計算大変


(1)
E_G[log(g(\boldsymbol{Y}))]=\int_{-\infty}^{\infty}log(\frac{1}{\sqrt{2\pi\tau^2}}exp\left\{-\frac{(z - m)^2}{2\tau^2}\right\})g(z)dz\\=-\frac{1}{2}log(2\pi\tau^2) - \frac{1}{2\tau^2}\int_{-\infty}^{\infty}(z - m)^2g(z)dz\\ =-\frac{1}{2}log(2\pi\tau^2) - \frac{1}{2}
\left( \because \int_{-\infty}^{\infty}(z - \mu)^2g(z)dz = \tau^2 \right )

(2)

E_G[log(g(\boldsymbol{Y}))] = \int_{-\infty}^{\infty}log(\frac{1}{\sqrt{2\pi\sigma^2}}exp\left\{-\frac{(z - \mu)^2}{2\sigma^2}\right\})g(z)dz\\=-\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\int_{-\infty}^{\infty}(z - \mu)^2g(z)dz\\ = -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\frac{1}{\sqrt{2\pi\tau^2}}\int_{-\infty}^{\infty}(z - \mu)^2exp\left\{-\frac{(z - m)^2}{2\tau^2}\right\}dz\\= -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2\sqrt{\pi}}\int_{-\infty}^{\infty}\left\{2\tau^2t^2 + 2\sqrt{2}\tau t( m- \mu) + (m -\mu)^2\right\}e^{-t^2} dz\\\left(\frac{z - m}{\sqrt{2}\tau} \rightarrow t , dz = \sqrt{2}\tau t \right)

 

ここで、ガウス積分を用いて、
\int^\infty_{-\infty}t^2e^{-t^2}dz = \frac{\sqrt{\pi}}{2}\\\int^\infty_{-\infty}e^{-t^2}dz = \sqrt{\pi}\\\int^\infty_{-\infty}te^{-t^2}dz = 0

E_G[log(g(\boldsymbol{Y}))] = -\frac{1}{2}log(2\pi\sigma^2) -\frac{ \tau^2 + (m - \mu)^2}{ 2\sigma^2 }

結構大変

(3)まとめるだけ

問5.3

また具体例。結構大変

(1)

\int^\infty_{-\infty}log\{g(y)\} g(y)dy \\=\int^\infty_{-\infty}\left\{log(\frac{1}{2})-|y|\right\}g(y)dy\\=-log(2) - 1

 

(2)

E_G \left[log \{f(\boldsymbol{ Y })\}\right] = -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\int_{-\infty}^{\infty}(y - \mu)^2\frac{ 1 }{ 2 }exp(-|y|) dy\\ = -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{4\sigma^2}\int_{-\infty}^{\infty}(y^2 - 2y\mu + \mu^2)exp(-|y|) dy\\ = -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\int_{0}^{\infty}(y^2 + \mu^2)exp(-y) dy \\

\int x^2exp (-x)dx = -(x^2+2x+2)・e^{-x} +Cを用いると示される

(3)(1)と(2)をまとめるだけ

問5.4 

計算すると

 I(g; f_a) = 0.0230

 I(g; f_b) = 0.0204

となるので、f_bの方がよい

問5.5

(5.39)に代入していって比較する。

問5.6

初めに対数尤度を求める


l(\boldsymbol{ p }) = log(n!) + \sum_l^k n_llog(p_l) - \sum_l^k log(n_l !)

確率の制約条件があるので、ラグランジュの未定乗数法を用いる。
L(p ,\alpha) = log(n!) + \sum_l^k n_llog(p_l) - \sum_l^k log(n_l !) - \alpha\left(\sum_l^k p_i - 1\right)
上の式が最小になるp_tを考える。
\frac{ \partial L(p, \alpha) }{ \partial p_t } = \frac{ n_t }{ p_t } - \alpha \\\therefore \alpha = \frac{ n_t }{ p_t }

の時である。すべてのp_tについて言えるので、\\
\alpha = \frac{ n_1 }{ p_k } = \frac{ n_k }{ p_2 } =\cdots =\frac{ n_k }{ p_k } \\

これを満たすのは、確率ということも考えると、\\

p_t = \frac{ n_t }{ n }

よって、最大尤度は、
l(\boldsymbol{ p }) = log(n!) + \sum_l^k n_llog(\frac{ n_l }{ n }) - \sum_l^k log(n_l !)
よって、
AIC = -2\left\{ log(n!) - \sum_l^k log(n_l !) + \sum_l^k n_llog(\frac{ n_l }{ n }) \right \} + 2(k-1)