互いに独立な標準正規分布に従う確率変数の2乗和がカイ二乗分布に従う証明

題名長い! 久しぶりの統計再開。
今回は、検定の基礎の一つであるカイ二乗分布について証明しようと思う。 復習をかねていろいろ書いてしまった。

有名なこの本で勉強中まとめ

現代数理統計学の基礎 (共立講座 数学の魅力)

現代数理統計学の基礎 (共立講座 数学の魅力)

証明の概略

Zが標準正規分布に従うときにその二乗和カイ二乗分布に従うことを二つの段階で証明する。

1. 標準正規分布の二乗が自由度1のカイ二乗分布に従うことを証明する。

計算して確率密度関数が等しいことを示す。

2. 二つのカイ二乗分布の和の分布もまたカイ二乗分布に従うことを持ちいて証明する。

特性関数を用いてやる

標準正規分布の二乗が自由度1のカイ二乗分布に従う

ここでは、二つの分布は、計算可能であり見通しが立つため、それぞれの分布を直接だし、
比較することで証明にしたいと思う。カイ二乗分布については、そのままガウス分布から計算することで出る。
一方、標準正規分布の二乗した時の分布については、変数変換をもちいた分布にしなければならない。

カイ二乗分布について

自由度kのカイ二乗分布は、ガンマ分布の特殊な場合として定義されている。


\chi^2 \sim Ga( k / 2,  2 )

ガンマ分布

ガンマ分布

 Ga( \alpha , \beta)

に従う確率変数Xの確率密度関数fについて

 
f_X(x) = \frac{1}{\Gamma(\alpha)}\frac{1}{\beta}\frac{x}{\beta}^{\alpha - 1}exp(-x/\beta)

カイ二乗分布

自由度kのカイ二乗分布の場合、先述したが、 
Ga(k/2, 2)
であるので

 
f_X(x) = \frac{1}{\Gamma( k /2 )}\frac{1}{2}\frac{x}{2}^{k/2 - 1}exp(-x/2)

自由度1のカイ二乗分布

 k \rightarrow 1 で、

 
f_X(x) = \frac{1}{\Gamma( 1 /2 )}\frac{ 1 }{ 2 }\frac{ x }{ 2 }^{ - \frac{1 }{ 2 } }exp(-x/2)

である。

また、ガンマ関数は 
\Gamma(\alpha) = f(x | \alpha) = \int_0^\infty x^{\alpha - 1}exp( - x) dx\
であるので、


\Gamma(\alpha) = f( x | \alpha ) = \int_0^\infty x^{\alpha - 1}exp( - x) dx\\


\Gamma(\frac{1}{2}) = f( x | 1/2 ) = \int_0^\infty x^{ - 1 / 2}exp( - x) dx\\
y^2 = x\\
2ydy = dx\\
\therefore \Gamma(\frac{1}{2}) = f( y | 1/2 ) = \frac{1}{2}\int_0^\infty exp( - y^2 ) dx\\
\therefore \Gamma(\frac{1}{2})  = \sqrt{\pi}

最後はガウス積分。 よって

 
f_X(x) = \frac{1}{\sqrt{\pi}}\frac{ 1 }{ 2 }\left(\frac{ x }{ 2 }\right)^{ - \frac{1 }{ 2 } }exp(-x/2)
= \frac{1}{\sqrt{2\pi}} x ^{ - \frac{1 }{ 2 } }exp(-x/2)\cdots (\ast)

なんとなく標準正規分布に近く

 x^2 \rightarrow y

を入れれば等しくなる気がする

標準正規分布の二乗の分布について

まず、標準正規分は、


f_Z(z) = \frac{ 1 }{ \sqrt{2\pi} } exp( -z^2 / 2 )

これを

 y = z^2

と変数変換する。


f_Y(y)=\frac{d}{dz}P(Z\leqq z)=\frac{d}{dz}\frac{1}{ \sqrt{2\pi} }\int^{\sqrt{y}}_{-\sqrt{y}}exp(-z^2/2)dz\\


=\frac{d}{dz}\left\{ F(\sqrt{y})-F(-\sqrt{y})\right\}


= \frac{dy}{dz}\frac{d}{dy}F(\sqrt{y}) - \frac{dy}{dz}\frac{d}{dy}F(-\sqrt{y})\\
= ( f(\sqrt{y}) + f(-\sqrt{y}))\frac{1}{2\sqrt{y}}\\


\because \frac{dy}{dz} = \frac{1}{2\sqrt{y}}\\

 
\therefore f_Y(y) = \frac{1}{\sqrt{y}} \frac{ 1 }{ \sqrt{2\pi} } exp( -y / 2 )\\

よって、上の(※)の式と比較して等しいことがわかる。 おおかなり長くなってしまった。後半の証明は軽め。

標準正規分布の二乗が自由度1のカイ二乗分布に従う

計算では求めにくいとき特性関数がいいかな。

ガンマ関数の特性関数

少し特殊なやりかた。そもそものガンマ関数と特性関数の似ている指数関数の部分をうまく使ってやる。

 \varphi_X = E[ e^{itX}] = \int^\infty_0 \frac{1}{\Gamma(\alpha)}\frac{1}{\beta}\left(\frac{x}{\beta}\right)^{(\alpha - 1)}exp(-x/\beta)exp(itx)dx

= \int^\infty_0 \frac{1}{\Gamma(\alpha)}\frac{1}{\beta}\left(\frac{x}{\beta}\right)^{(\alpha - 1)}exp\left\{-x(1/\beta - it)\right\}

= \frac{1}{\Gamma(\alpha)}\frac{1}{(1 - i\beta t)^{\alpha}}\int^\infty_0 (1/\beta - it)\left\{(1/\beta - it)x\right\}^{\alpha-1}exp\left\{-x(1/\beta - it)\right\}

 
\left\{(1/\beta - it)x\right\} \rightarrow z\\
dx\left\{(1/\beta - it)\right\} = dz


 \frac{1}{\Gamma(\alpha)}\frac{1}{(1 - i\beta t)^{\alpha}}\int^\infty_0z^{\alpha - 1}exp\left\{-z\right\}dz\\
=\frac{1}{\Gamma(\alpha)}\frac{1}{(1 - i\beta t)^{\alpha}}\Gamma({\alpha})
=\frac{1}{(1 - i\beta t)^{\alpha}}

ガンマ関数の特性関数が求められた。

自由度カイ二乗分布の特性分布

 \alpha \rightarrow k/2, \beta \rightarrow 2
 \varphi_{ \chi^ 2 } = \frac{ 1 }{ ( 1 - 2i t )^ { k / 2 } }

足した場合を考える

特性関数の形を見ると、同じ形の式をかけても同じ形になることがわかることから、

 x_1 \sim \chi^ 2_m , x_2 \sim \chi^ 2_n

 z = x_1 + x_2

 E\left[e^ {itZ}\right] = E[e^ {it(X_1 + X_2)} ]

 =E[ e^ { it( X_1 ) } ] E[e^ { it( X_2) } ]

 =\frac{1}{(1 - i2 t)^ {n/2}}\frac{1}{(1 - i2 t)^{m/2}} = \frac{1}{(1 - i2 t)^ { (n+m)/2}}
これは、自由度n+mのカイ二乗分布の特性関数であるので、
 \chi^ 2_n +  \chi^ 2_m \sim  \chi^ 2_{ n+ m }
であるというのがわかる。
特性関数と分布関数が一対一対応することから示される。
また、これは逆フーリエ変換の式を使うと示される。

以下二つのことを考えると、
1. 標準正規分布の二乗が自由度1のカイ二乗分布に従うことを証明する。
2. 二つのカイ二乗分布の和の分布もまたカイ二乗分布に従うことを持ちいて証明する。

標準正規分布の二乗ならばカイ二乗分布に従い、そのカイ二乗分布同士の和もまたカイ二乗に従うことから、
少し帰納法っぽく示された。
帰納法なのかな?
k + 1と考えれるからそうかな。

tapply apply by の使い方

tapply ・apply ・by が毎回混同するのでまとめた。

 

apply・・行列のデータの行か列かを指定して、関数を適用する。

apply( 行列, 行( 1 )か列 ( 2 ), 関数, 関数の引数 )

 

tapply・・カテゴリデータを使うときに役立つ。カテゴリごとにデータを出す。

tapply( データ,  カテゴリのベクトル,  関数 )

 

by ・・ほとんどbyと同じ

 

 

 

多変量解析入門 解答 第10章

第10章 

この本の解答がなかったので作っていく、

多変量解析入門――線形から非線形へ

多変量解析入門――線形から非線形へ

 

 

 他の章の解答はこちら

yosuke-programing.hatenadiary.com

問10.1

書くのが大変なので、書き方のみ、

最長距離法は、最短距離法とは逆に長い方から決めていく。

群平均の時は、その長さがクラースたを作るときにながさが、そのクラスタに入っている個体数によって変わっていく。

問10.2

(1)

感覚的には、全体の中心から考えて、その重心から行っても、各クラスタの重心を通ってから個別のデータに行ってもベクトル的に変わらないよねっていう感じ。

\boldsymbol{ x_c } = \frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 } +n_2\boldsymbol{ \bar{x}_2 } } }{ n_1 + n_2 }\\ \sum_{j \in (1, 2)}\left\{ \sum_{i}\left( |\boldsymbol{ x_{ij}} - \boldsymbol{ x_c }|^2 - | \boldsymbol{ x_{ij} } - \boldsymbol{ \bar{x}_j }|^2\right ) \right\} = \\ \sum_{j \in (1, 2)}\left\{ \sum_{i}\left( \boldsymbol{ x_{ij}}^T\boldsymbol{ x_{ij}} - \boldsymbol{ x_{ij}}^T\boldsymbol{ x_c } - \boldsymbol{ x_c }^T\boldsymbol{ x_{ij}} + \boldsymbol{ x_c }^T\boldsymbol{ x_c } -  \boldsymbol{ x_{ij}}^T\boldsymbol{ x_{ij}} + \boldsymbol{ x_{ij}}^T\boldsymbol{ \bar{x}_j } + \boldsymbol{ \bar{x}_j }^T\boldsymbol{ x_{ij}} - \boldsymbol{ \bar{x}_j }^T\boldsymbol{\bar{x}_j } \right ) \right\} = \\ \sum_{j \in (1, 2)}\left\{ \sum_{i}\left( - \boldsymbol{ x_{ij}}^T\boldsymbol{ x_c } - \boldsymbol{ x_c }^T\boldsymbol{ x_{ij}} + \boldsymbol{ x_c }^T\boldsymbol{ x_c }  + \boldsymbol{ x_{ij}}^T\boldsymbol{ \bar{x}_j } + \boldsymbol{ \bar{x}_j }^T\boldsymbol{ x_{ij}} - \boldsymbol{ \bar{x}_j }^T\boldsymbol{\bar{x}_j } \right ) \right\} = \\ \sum_{j \in (1, 2)}\left\{ - n_j\boldsymbol{ \bar{x}_j }^T\boldsymbol{ x_c } - n_j\boldsymbol{ x_c }^T\boldsymbol{ \bar{x}_j } + n_j\boldsymbol{ x_c }^T\boldsymbol{ x_c }  + n_j\boldsymbol{ \bar{x}_j }^T\boldsymbol{ \bar{x}_j } + n_j\boldsymbol{ \bar{x}_j }^T\boldsymbol{ \bar{x}_j } - n_j\boldsymbol{ \bar{x}_j }^T\boldsymbol{\bar{x}_j } \right\} = \\ \sum_{j \in (1, 2)}\left\{ - n_j\boldsymbol{ \bar{x}_j }^T\boldsymbol{ x_c } - n_j\boldsymbol{ x_c }^T\boldsymbol{ \bar{x}_j } + n_j\boldsymbol{ x_c }^T\boldsymbol{ x_c }  + n_j\boldsymbol{ \bar{x}_j }^T\boldsymbol{ \bar{x}_j } \right\} = \\ \sum_{j \in (1, 2)}n_j\left| \boldsymbol{ \bar{x}_j } - \boldsymbol{ x_c } \right|^2

(2)重心と相対に分けるというのは、高校でもやる物理の二体問題でよくある手。そんな感じの問題。

\sum_{j \in (1, 2)}n_1\left| \boldsymbol{ \bar{x}_j } - \boldsymbol{ x_c } \right|^2 = \\ n_1\left( \boldsymbol{ \bar{x}_1}^T\boldsymbol{ \bar{x}_1} - \boldsymbol{ \bar{x}_1}^T\frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 } + n_2\boldsymbol{ \bar{x}_2 } } }{ n_1 + n_2 } - \frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 }^T + n_2\boldsymbol{ \bar{x}_2 }^T } }{ n_1 + n_2 } \boldsymbol{ \bar{x}_1 + \frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 }^T + n_2\boldsymbol{ \bar{x}_2 }^T } }{ n_1 + n_2 } \cdot\frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 } + n_2\boldsymbol{ \bar{x}_2 } } }{ n_1 + n_2 } } \right) + \\n_2\left( \boldsymbol{ \bar{x}_2}^T\boldsymbol{ \bar{x}_2} - \boldsymbol{ \bar{x}_2}^T\frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 } + n_2\boldsymbol{ \bar{x}_2 } } }{ n_1 + n_2 } - \frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 }^T + n_2\boldsymbol{ \bar{x}_2 }^T } }{ n_1 + n_2 } \boldsymbol{ \bar{x}_2 + \frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 }^T + n_2\boldsymbol{ \bar{x}_2 }^T } }{ n_1 + n_2 }\cdot \frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 } + n_2\boldsymbol{ \bar{x}_2 } } }{ n_1 + n_2 } } \right)\\

 

書くのにつかれた。あとは計算。

今回の問題は、絵にかくとすごくわかりやすく見えてくる。

問10.3

似たようなもん

問10.4

(1)期待値の中の和が期待値になるので

(2)まず期待値の中のを展開すると見える。

問10.5

上の考え方をつかう。

 

 

動物農場 読書日記

今回読んだのはこの本、短めで人間の皮肉が書かれている

 

あらすじ

農場の主人を追い出した動物たちは、全ての動物が平等に生活するための楽園を作った。その社会のために、賢いブタが主導で戒律を作り共和国となり、大統領にまでなった。そうして発展していくに従って、ブタの特権や権威が大きくなっていく。人間からの服従から解放された動物たちは、本当の自由を手に入れられるのか!!

感想

ブタがビール飲んでぶよぶよしたりと動物たちが面白かった。

現実社会でも、トップの人たちが有利に動くために、メディアを使い、大きなお祭りでごまかし、ラージスピーカーが大切な声をかき消すことがある。そのことが、面白い動物たちの行動となっていてよかった。社会のトップとかになるとはこういうこともあるんだろうなって思った。

 

 

 

多変量解析入門 解答 第8章 サポートベクトルマシン

第8章 サポートベクトルマシン

この本の解答がなかったので作っていく、

多変量解析入門――線形から非線形へ

多変量解析入門――線形から非線形へ

 

 

 他の章の解答はこちら

yosuke-programing.hatenadiary.com

 

問8.1

直交ベクトルを用いて基本的に、2,3次元などでも用いられる方法で証明する。

 \boldsymbol{ w } は、平面の式を考えると、法線ベクトルである。

距離を求めたい今回の点を \boldsymbol{ s }とし、
そこから、伸びた超平面の垂線と超平面との交点を 、
 \boldsymbol{ t } とすると、

 d = |\vec{ st }| = k|\boldsymbol{w}|

ここで、kを求めるために、 \boldsymbol{ t }を消去する。
tは、超平面より、
 \boldsymbol{ w }^T\boldsymbol{ t }+ b = 0を満たす。
また、 \boldsymbol{ t } = \boldsymbol{w} + \boldsymbol{s} を考えて
 k\boldsymbol{ w }^T\boldsymbol{w} + \boldsymbol{ w }^T\boldsymbol{s}+ b = 0 \therefore s = - \frac{ \boldsymbol{ w }^T\boldsymbol{s}+ b }{ |\boldsymbol{w}|^2 }\

よって、
 d = |k\boldsymbol{w}| = \frac{ | \boldsymbol{ w }^T\boldsymbol{s}+ b |}{ |\boldsymbol{w}|^2 }|\boldsymbol{w}|= \frac{ |\boldsymbol{ w }^T\boldsymbol{s}+ b |}{ |\boldsymbol{w}| }

問8.2

(1) y_iの符号と \boldsymbol{ w }^T \boldsymbol{ x_i } + b の符号が同符号より

(2)最大化することが目的で、スケールを無視できることを用いれる。

証明は、(8.12)あたりに書いてあるので省略

問8.3

(8.19)あたりに書いてあるので省略

問8.4

 サポートベクトルとは、 y_i\boldsymbol{w}^T\boldsymbol{x_i} = 1の点。

Kurush-Kuhn-Tucker条件の式(8.30)の初めに(3)(4)の代入である(8.32)を考える。

g(\boldsymbol{w}_i ) \leq 0より、(4)の条件を満たすには、

\alpha_i = 0になる。

問8.5

p208 あたりと同じ

問8.6

結構一緒

多変量解析入門 第6章 解答

第6章 

この本の解答がなかったので作っていく、

多変量解析入門――線形から非線形へ

多変量解析入門――線形から非線形へ

 

 

 他の章の解答はこちら

yosuke-programing.hatenadiary.com

問6.1

ほとんど(6.12)に書いてあるので省略

問6.2

\lambdaをこの後使いたいので、この本内では、\lambdaの式になっているが、\etaにする。
\eta = \frac{\boldsymbol{ w }^T(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2 ) ^ T \boldsymbol{ w }}{\boldsymbol{ w } ^ T S \boldsymbol{ w } }
を最大化する。

\eta\boldsymbol{ w } の関数と見た時

\eta(\boldsymbol{ w }) = \eta(\alpha \boldsymbol{ w }) \quad \alpha \in R
(代入すると分かる)、つまり、\boldsymbol{ w } の尺度は関係ない。なので、
\boldsymbol{ w } ^ T S \boldsymbol{ w } = 1と制約条件を付けても一般性を欠かない。

制約条件があるので、ラグランジュの未定乗数法をもちいて、
L = \boldsymbol{ w }^T(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2 ) ^ T \boldsymbol{ w } - \lambda( \boldsymbol{ w } ^ T S \boldsymbol{ w } - 1)\\\frac{\partial L }{\partial \boldsymbol{ w } } = 2(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2 ) \boldsymbol{ w } - 2\lambda S \boldsymbol{ w } = 0\\\therefore S^{-1}(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2 ) \boldsymbol{ w } = \lambda \boldsymbol{ w }\\
よって、固有値問題に帰着した。
また、S^{-1}(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2 ) \boldsymbol{ w } = \lambda \boldsymbol{ w }\\(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2 ) \boldsymbol{ w }\lambdaは、スカラーであるので、\\
\boldsymbol{ w } \propto S^{-1}(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)
関数\eta\boldsymbol{ w }の尺度に関係ないので、

\boldsymbol{ w } = S^{-1}(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)

 

ラグランジュの未定乗数法の簡単な説明はこちら

yosuke-programing.hatenadiary.com

問6.3

(1)計算するだけなので過程は省略。

\begin{eqnarray}S^{-1} = \left(\begin{array}{c}3 \quad 1 \\1 \quad 2 \\\end{array}\right)\end{eqnarray}

 D^2_1 = 3x_1^2 - 2x_1+2x_1x_2 - 2x_2 + 2x^2_2 + 2

 D^2_2 = 3x_1^2 - 6x_1+2x_1x_2 - 2x_2 + 2x^2_2 + 3

(2)なぜか、x_1だけの線形結合に、、、

 D^2_1 - D^2_2 = 4x_1 - 1

(3) h(0.5, 0.8) = 1 \geqq 0より、 D_2

問6.4

代入するだけ

問6.5

省略

問6.6

結構詳しくこの本に書いてある

 

多変量解析入門 解答 第5章

第5章 モデル評価基準

 各省でも少し扱ってきたAICなどに加えて、BICベイズ型モデル評価基準)やクロスバリデーションなどの評価方法。

多変量解析入門――線形から非線形へ

多変量解析入門――線形から非線形へ

 

 

 他の章の解答はこちら

yosuke-programing.hatenadiary.com

 

問5.1 K.L情報量

K.L情報量とは

平均的な良さ、真のモデルとの違いを計算するモデルである。


g(Z)が、真のモデル、f(Z|\boldsymbol{\hat{\theta}})が予測したモデル

I\{g(z), f(Z|\boldsymbol{\hat{\theta}})\} = E_G\left[log\frac{g(Z)}{f(Z|\boldsymbol{\hat{\theta}})}\right]

 

解答

今回の問題は、性質を計算で確かめる問題

(i)

I\{g(z), f(Z|\boldsymbol{\hat{\theta}})\} = E_G\left[log\frac{g(Z)}{f(Z|\boldsymbol{\hat{\theta}})}\right]\geqq 0

を示す。

$$g(Z)が、真のモデル、f(Z|\boldsymbol{\hat{\theta}})が予測したモデル


I\{g(z), f(Z|\boldsymbol{\hat{\theta}})\} = E_G\left[log\frac{g(Z)}{f(Z|\boldsymbol{\hat{\theta}})}\right]

 

中身を考えると、
今回は離散でやる

I\{g(z), f(Z|\boldsymbol{\hat{\theta}})\} = E_G\left[log\frac{g(Z)}{f(Z|\boldsymbol{\hat{\theta}})}\right]
=\sum^\infty_{-\infty}\left\{log\frac{g(z)}{f(z|\boldsymbol{\hat{\theta}})}\right\}g(z)\\ \geqq\sum^\infty_{-\infty}g(z) - f(z|\boldsymbol{\hat{\theta}}) = 0
これは、
log\frac{p}{q} \geqq 1 - \frac{q}{p}\\
を用いた。微分して極限とると分かる。

(ii)logの中身が1になるため log 1 = 0

 

問5.2

今回は、KL情報量の具体例。計算大変


(1)
E_G[log(g(\boldsymbol{Y}))]=\int_{-\infty}^{\infty}log(\frac{1}{\sqrt{2\pi\tau^2}}exp\left\{-\frac{(z - m)^2}{2\tau^2}\right\})g(z)dz\\=-\frac{1}{2}log(2\pi\tau^2) - \frac{1}{2\tau^2}\int_{-\infty}^{\infty}(z - m)^2g(z)dz\\ =-\frac{1}{2}log(2\pi\tau^2) - \frac{1}{2}
\left( \because \int_{-\infty}^{\infty}(z - \mu)^2g(z)dz = \tau^2 \right )

(2)

E_G[log(g(\boldsymbol{Y}))] = \int_{-\infty}^{\infty}log(\frac{1}{\sqrt{2\pi\sigma^2}}exp\left\{-\frac{(z - \mu)^2}{2\sigma^2}\right\})g(z)dz\\=-\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\int_{-\infty}^{\infty}(z - \mu)^2g(z)dz\\ = -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\frac{1}{\sqrt{2\pi\tau^2}}\int_{-\infty}^{\infty}(z - \mu)^2exp\left\{-\frac{(z - m)^2}{2\tau^2}\right\}dz\\= -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2\sqrt{\pi}}\int_{-\infty}^{\infty}\left\{2\tau^2t^2 + 2\sqrt{2}\tau t( m- \mu) + (m -\mu)^2\right\}e^{-t^2} dz\\\left(\frac{z - m}{\sqrt{2}\tau} \rightarrow t , dz = \sqrt{2}\tau t \right)

 

ここで、ガウス積分を用いて、
\int^\infty_{-\infty}t^2e^{-t^2}dz = \frac{\sqrt{\pi}}{2}\\\int^\infty_{-\infty}e^{-t^2}dz = \sqrt{\pi}\\\int^\infty_{-\infty}te^{-t^2}dz = 0

E_G[log(g(\boldsymbol{Y}))] = -\frac{1}{2}log(2\pi\sigma^2) -\frac{ \tau^2 + (m - \mu)^2}{ 2\sigma^2 }

結構大変

(3)まとめるだけ

問5.3

また具体例。結構大変

(1)

\int^\infty_{-\infty}log\{g(y)\} g(y)dy \\=\int^\infty_{-\infty}\left\{log(\frac{1}{2})-|y|\right\}g(y)dy\\=-log(2) - 1

 

(2)

E_G \left[log \{f(\boldsymbol{ Y })\}\right] = -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\int_{-\infty}^{\infty}(y - \mu)^2\frac{ 1 }{ 2 }exp(-|y|) dy\\ = -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{4\sigma^2}\int_{-\infty}^{\infty}(y^2 - 2y\mu + \mu^2)exp(-|y|) dy\\ = -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\int_{0}^{\infty}(y^2 + \mu^2)exp(-y) dy \\

\int x^2exp (-x)dx = -(x^2+2x+2)・e^{-x} +Cを用いると示される

(3)(1)と(2)をまとめるだけ

問5.4 

計算すると

 I(g; f_a) = 0.0230

 I(g; f_b) = 0.0204

となるので、f_bの方がよい

問5.5

(5.39)に代入していって比較する。

問5.6

初めに対数尤度を求める


l(\boldsymbol{ p }) = log(n!) + \sum_l^k n_llog(p_l) - \sum_l^k log(n_l !)

確率の制約条件があるので、ラグランジュの未定乗数法を用いる。
L(p ,\alpha) = log(n!) + \sum_l^k n_llog(p_l) - \sum_l^k log(n_l !) - \alpha\left(\sum_l^k p_i - 1\right)
上の式が最小になるp_tを考える。
\frac{ \partial L(p, \alpha) }{ \partial p_t } = \frac{ n_t }{ p_t } - \alpha \\\therefore \alpha = \frac{ n_t }{ p_t }

の時である。すべてのp_tについて言えるので、\\
\alpha = \frac{ n_1 }{ p_k } = \frac{ n_k }{ p_2 } =\cdots =\frac{ n_k }{ p_k } \\

これを満たすのは、確率ということも考えると、\\

p_t = \frac{ n_t }{ n }

よって、最大尤度は、
l(\boldsymbol{ p }) = log(n!) + \sum_l^k n_llog(\frac{ n_l }{ n }) - \sum_l^k log(n_l !)
よって、
AIC = -2\left\{ log(n!) - \sum_l^k log(n_l !) + \sum_l^k n_llog(\frac{ n_l }{ n }) \right \} + 2(k-1)