2019-11-03

互いに独立な標準正規分布に従う確率変数の2乗和がカイ二乗分布に従う証明

統計学数学カイ二乗数理統計学現代数理統計学の基礎

題名長い！久しぶりの統計再開。
今回は、検定の基礎の一つであるカイ二乗分布について証明しようと思う。復習をかねていろいろ書いてしまった。

有名なこの本で勉強中まとめ

現代数理統計学の基礎 (共立講座数学の魅力)

作者: 久保川達也
出版社/メーカー: 共立出版
発売日: 2017/04/07
メディア: 単行本
この商品を含むブログ (1件) を見る

証明の概略
- 1. 標準正規分布の二乗が自由度１のカイ二乗分布に従うことを証明する。
- 2. 二つのカイ二乗分布の和の分布もまたカイ二乗分布に従うことを持ちいて証明する。
標準正規分布の二乗が自由度１のカイ二乗分布に従う
標準正規分布の二乗が自由度１のカイ二乗分布に従う

証明の概略

Zが標準正規分布に従うときにその二乗和カイ二乗分布に従うことを二つの段階で証明する。

1. 標準正規分布の二乗が自由度１のカイ二乗分布に従うことを証明する。

計算して確率密度関数が等しいことを示す。

2. 二つのカイ二乗分布の和の分布もまたカイ二乗分布に従うことを持ちいて証明する。

特性関数を用いてやる

標準正規分布の二乗が自由度１のカイ二乗分布に従う

ここでは、二つの分布は、計算可能であり見通しが立つため、それぞれの分布を直接だし、
比較することで証明にしたいと思う。カイ二乗分布については、そのままガウス分布から計算することで出る。
一方、標準正規分布の二乗した時の分布については、変数変換をもちいた分布にしなければならない。

カイ二乗分布について

自由度kのカイ二乗分布は、ガンマ分布の特殊な場合として定義されている。

$\chi^2 \sim Ga( k / 2, 2 )$

ガンマ分布

$Ga( \alpha , \beta)$

に従う確率変数Xの確率密度関数fについて

$f_X(x) = \frac{1}{\Gamma(\alpha)}\frac{1}{\beta}\frac{x}{\beta}^{\alpha - 1}exp(-x/\beta)$

カイ二乗分布

自由度kのカイ二乗分布の場合、先述したが、 $Ga(k/2, 2)$ であるので

$f_X(x) = \frac{1}{\Gamma( k /2 )}\frac{1}{2}\frac{x}{2}^{k/2 - 1}exp(-x/2)$

自由度1のカイ二乗分布

$k \rightarrow 1$ で、

$f_X(x) = \frac{1}{\Gamma( 1 /2 )}\frac{ 1 }{ 2 }\frac{ x }{ 2 }^{ - \frac{1 }{ 2 } }exp(-x/2)$

である。

また、ガンマ関数は $\Gamma(\alpha) = f(x | \alpha) = \int_0^\infty x^{\alpha - 1}exp( - x) dx\$ であるので、

$\Gamma(\alpha) = f( x | \alpha ) = \int_0^\infty x^{\alpha - 1}exp( - x) dx\\$

$\Gamma(\frac{1}{2}) = f( x | 1/2 ) = \int_0^\infty x^{ - 1 / 2}exp( - x) dx\\ y^2 = x\\ 2ydy = dx\\ \therefore \Gamma(\frac{1}{2}) = f( y | 1/2 ) = \frac{1}{2}\int_0^\infty exp( - y^2 ) dx\\ \therefore \Gamma(\frac{1}{2}) = \sqrt{\pi}$

最後はガウス積分。よって

$f_X(x) = \frac{1}{\sqrt{\pi}}\frac{ 1 }{ 2 }\left(\frac{ x }{ 2 }\right)^{ - \frac{1 }{ 2 } }exp(-x/2) = \frac{1}{\sqrt{2\pi}} x ^{ - \frac{1 }{ 2 } }exp(-x/2)\cdots (\ast)$

なんとなく標準正規分布に近く

$x^2 \rightarrow y$

を入れれば等しくなる気がする

標準正規分布の二乗の分布について

まず、標準正規分は、

$f_Z(z) = \frac{ 1 }{ \sqrt{2\pi} } exp( -z^2 / 2 )$

これを

$y = z^2$

と変数変換する。

$f_Y(y)=\frac{d}{dz}P(Z\leqq z)=\frac{d}{dz}\frac{1}{ \sqrt{2\pi} }\int^{\sqrt{y}}_{-\sqrt{y}}exp(-z^2/2)dz\\$

$=\frac{d}{dz}\left\{ F(\sqrt{y})-F(-\sqrt{y})\right\}$

$= \frac{dy}{dz}\frac{d}{dy}F(\sqrt{y}) - \frac{dy}{dz}\frac{d}{dy}F(-\sqrt{y})\\ = ( f(\sqrt{y}) + f(-\sqrt{y}))\frac{1}{2\sqrt{y}}\\$

$\because \frac{dy}{dz} = \frac{1}{2\sqrt{y}}\\$

$\therefore f_Y(y) = \frac{1}{\sqrt{y}} \frac{ 1 }{ \sqrt{2\pi} } exp( -y / 2 )\\$

よって、上の(※)の式と比較して等しいことがわかる。おおかなり長くなってしまった。後半の証明は軽め。

標準正規分布の二乗が自由度１のカイ二乗分布に従う

計算では求めにくいとき特性関数がいいかな。

ガンマ関数の特性関数

少し特殊なやりかた。そもそものガンマ関数と特性関数の似ている指数関数の部分をうまく使ってやる。

$\varphi_X = E[ e^{itX}] = \int^\infty_0 \frac{1}{\Gamma(\alpha)}\frac{1}{\beta}\left(\frac{x}{\beta}\right)^{(\alpha - 1)}exp(-x/\beta)exp(itx)dx$

$= \int^\infty_0 \frac{1}{\Gamma(\alpha)}\frac{1}{\beta}\left(\frac{x}{\beta}\right)^{(\alpha - 1)}exp\left\{-x(1/\beta - it)\right\}$

$= \frac{1}{\Gamma(\alpha)}\frac{1}{(1 - i\beta t)^{\alpha}}\int^\infty_0 (1/\beta - it)\left\{(1/\beta - it)x\right\}^{\alpha-1}exp\left\{-x(1/\beta - it)\right\}$

$\left\{(1/\beta - it)x\right\} \rightarrow z\\ dx\left\{(1/\beta - it)\right\} = dz$

$\frac{1}{\Gamma(\alpha)}\frac{1}{(1 - i\beta t)^{\alpha}}\int^\infty_0z^{\alpha - 1}exp\left\{-z\right\}dz\\ =\frac{1}{\Gamma(\alpha)}\frac{1}{(1 - i\beta t)^{\alpha}}\Gamma({\alpha}) =\frac{1}{(1 - i\beta t)^{\alpha}}$

ガンマ関数の特性関数が求められた。

自由度カイ二乗分布の特性分布

$\alpha \rightarrow k/2, \beta \rightarrow 2$
$\varphi_{ \chi^ 2 } = \frac{ 1 }{ ( 1 - 2i t )^ { k / 2 } }$

足した場合を考える

特性関数の形を見ると、同じ形の式をかけても同じ形になることがわかることから、

$x_1 \sim \chi^ 2_m , x_2 \sim \chi^ 2_n$

$z = x_1 + x_2$

$E\left[e^ {itZ}\right] = E[e^ {it(X_1 + X_2)}$ ]

$=E[ e^ { it( X_1 ) }$ ] $E[e^ { it( X_2) }$ ]

$=\frac{1}{(1 - i2 t)^ {n/2}}\frac{1}{(1 - i2 t)^{m/2}} = \frac{1}{(1 - i2 t)^ { (n+m)/2}}$
これは、自由度n+mのカイ二乗分布の特性関数であるので、
$\chi^ 2_n + \chi^ 2_m \sim \chi^ 2_{ n+ m }$
であるというのがわかる。
特性関数と分布関数が一対一対応することから示される。
また、これは逆フーリエ変換の式を使うと示される。

以下二つのことを考えると、
1. 標準正規分布の二乗が自由度１のカイ二乗分布に従うことを証明する。
2. 二つのカイ二乗分布の和の分布もまたカイ二乗分布に従うことを持ちいて証明する。

標準正規分布の二乗ならばカイ二乗分布に従い、そのカイ二乗分布同士の和もまたカイ二乗に従うことから、
少し帰納法っぽく示された。
帰納法なのかな？
k + 1と考えれるからそうかな。

2019-10-12

tapply apply by の使い方

統計学 R

tapply ・apply ・by が毎回混同するのでまとめた。

apply・・行列のデータの行か列かを指定して、関数を適用する。

apply( 行列, 行( 1 )か列 ( 2 ), 関数, 関数の引数 )

tapply・・カテゴリデータを使うときに役立つ。カテゴリごとにデータを出す。

tapply( データ, カテゴリのベクトル, 関数 )

by ・・ほとんどbyと同じ

2019-08-23

多変量解析入門　解答第10章

多変量解析入門データサイエンス

第10章

この本の解答がなかったので作っていく、

多変量解析入門――線形から非線形へ

作者: 小西貞則
出版社/メーカー: 岩波書店
発売日: 2010/01/27
メディア: 単行本（ソフトカバー）
購入: 14人クリック: 347回
この商品を含むブログ (9件) を見る

他の章の解答はこちら

yosuke-programing.hatenadiary.com

問10.1
問10.2
問10.3
問10.4
問10.5

問10.1

書くのが大変なので、書き方のみ、

最長距離法は、最短距離法とは逆に長い方から決めていく。

群平均の時は、その長さがクラースたを作るときにながさが、そのクラスタに入っている個体数によって変わっていく。

問10.2

(1)

感覚的には、全体の中心から考えて、その重心から行っても、各クラスタの重心を通ってから個別のデータに行ってもベクトル的に変わらないよねっていう感じ。

$\boldsymbol{ x_c } = \frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 } +n_2\boldsymbol{ \bar{x}_2 } } }{ n_1 + n_2 }\\ \sum_{j \in (1, 2)}\left\{ \sum_{i}\left( |\boldsymbol{ x_{ij}} - \boldsymbol{ x_c }|^2 - | \boldsymbol{ x_{ij} } - \boldsymbol{ \bar{x}_j }|^2\right ) \right\} = \\ \sum_{j \in (1, 2)}\left\{ \sum_{i}\left( \boldsymbol{ x_{ij}}^T\boldsymbol{ x_{ij}} - \boldsymbol{ x_{ij}}^T\boldsymbol{ x_c } - \boldsymbol{ x_c }^T\boldsymbol{ x_{ij}} + \boldsymbol{ x_c }^T\boldsymbol{ x_c } - \boldsymbol{ x_{ij}}^T\boldsymbol{ x_{ij}} + \boldsymbol{ x_{ij}}^T\boldsymbol{ \bar{x}_j } + \boldsymbol{ \bar{x}_j }^T\boldsymbol{ x_{ij}} - \boldsymbol{ \bar{x}_j }^T\boldsymbol{\bar{x}_j } \right ) \right\} = \\ \sum_{j \in (1, 2)}\left\{ \sum_{i}\left( - \boldsymbol{ x_{ij}}^T\boldsymbol{ x_c } - \boldsymbol{ x_c }^T\boldsymbol{ x_{ij}} + \boldsymbol{ x_c }^T\boldsymbol{ x_c } + \boldsymbol{ x_{ij}}^T\boldsymbol{ \bar{x}_j } + \boldsymbol{ \bar{x}_j }^T\boldsymbol{ x_{ij}} - \boldsymbol{ \bar{x}_j }^T\boldsymbol{\bar{x}_j } \right ) \right\} = \\ \sum_{j \in (1, 2)}\left\{ - n_j\boldsymbol{ \bar{x}_j }^T\boldsymbol{ x_c } - n_j\boldsymbol{ x_c }^T\boldsymbol{ \bar{x}_j } + n_j\boldsymbol{ x_c }^T\boldsymbol{ x_c } + n_j\boldsymbol{ \bar{x}_j }^T\boldsymbol{ \bar{x}_j } + n_j\boldsymbol{ \bar{x}_j }^T\boldsymbol{ \bar{x}_j } - n_j\boldsymbol{ \bar{x}_j }^T\boldsymbol{\bar{x}_j } \right\} = \\ \sum_{j \in (1, 2)}\left\{ - n_j\boldsymbol{ \bar{x}_j }^T\boldsymbol{ x_c } - n_j\boldsymbol{ x_c }^T\boldsymbol{ \bar{x}_j } + n_j\boldsymbol{ x_c }^T\boldsymbol{ x_c } + n_j\boldsymbol{ \bar{x}_j }^T\boldsymbol{ \bar{x}_j } \right\} = \\ \sum_{j \in (1, 2)}n_j\left| \boldsymbol{ \bar{x}_j } - \boldsymbol{ x_c } \right|^2$

(2)重心と相対に分けるというのは、高校でもやる物理の二体問題でよくある手。そんな感じの問題。

$\sum_{j \in (1, 2)}n_1\left| \boldsymbol{ \bar{x}_j } - \boldsymbol{ x_c } \right|^2 = \\ n_1\left( \boldsymbol{ \bar{x}_1}^T\boldsymbol{ \bar{x}_1} - \boldsymbol{ \bar{x}_1}^T\frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 } + n_2\boldsymbol{ \bar{x}_2 } } }{ n_1 + n_2 } - \frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 }^T + n_2\boldsymbol{ \bar{x}_2 }^T } }{ n_1 + n_2 } \boldsymbol{ \bar{x}_1 + \frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 }^T + n_2\boldsymbol{ \bar{x}_2 }^T } }{ n_1 + n_2 } \cdot\frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 } + n_2\boldsymbol{ \bar{x}_2 } } }{ n_1 + n_2 } } \right) + \\n_2\left( \boldsymbol{ \bar{x}_2}^T\boldsymbol{ \bar{x}_2} - \boldsymbol{ \bar{x}_2}^T\frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 } + n_2\boldsymbol{ \bar{x}_2 } } }{ n_1 + n_2 } - \frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 }^T + n_2\boldsymbol{ \bar{x}_2 }^T } }{ n_1 + n_2 } \boldsymbol{ \bar{x}_2 + \frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 }^T + n_2\boldsymbol{ \bar{x}_2 }^T } }{ n_1 + n_2 }\cdot \frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 } + n_2\boldsymbol{ \bar{x}_2 } } }{ n_1 + n_2 } } \right)\\$

書くのにつかれた。あとは計算。

今回の問題は、絵にかくとすごくわかりやすく見えてくる。

問10.3

似たようなもん

問10.4

（１）期待値の中の和が期待値になるので

（２）まず期待値の中のを展開すると見える。

問10.5

上の考え方をつかう。

2019-08-14

動物農場読書日記

読書

今回読んだのはこの本、短めで人間の皮肉が書かれている

動物農場〔新訳版〕 (ハヤカワepi文庫)

作者: ジョージ・オーウェル,水戸部功,山形浩生
出版社/メーカー: 早川書房
発売日: 2017/01/07
メディア: 文庫
この商品を含むブログ (6件) を見る

あらすじ

農場の主人を追い出した動物たちは、全ての動物が平等に生活するための楽園を作った。その社会のために、賢いブタが主導で戒律を作り共和国となり、大統領にまでなった。そうして発展していくに従って、ブタの特権や権威が大きくなっていく。人間からの服従から解放された動物たちは、本当の自由を手に入れられるのか！！

感想

ブタがビール飲んでぶよぶよしたりと動物たちが面白かった。

現実社会でも、トップの人たちが有利に動くために、メディアを使い、大きなお祭りでごまかし、ラージスピーカーが大切な声をかき消すことがある。そのことが、面白い動物たちの行動となっていてよかった。社会のトップとかになるとはこういうこともあるんだろうなって思った。

2019-08-11

多変量解析入門　解答　第８章　サポートベクトルマシン

多変量解析入門データサイエンス

第８章サポートベクトルマシン

この本の解答がなかったので作っていく、

多変量解析入門――線形から非線形へ

作者: 小西貞則
出版社/メーカー: 岩波書店
発売日: 2010/01/27
メディア: 単行本（ソフトカバー）
購入: 14人クリック: 347回
この商品を含むブログ (9件) を見る

他の章の解答はこちら

yosuke-programing.hatenadiary.com

第８章サポートベクトルマシン
- 問8.1
- 問8.2
- 問8.3
- 問8.4
- 問8.5
- 問8.6

問8.1

直交ベクトルを用いて基本的に、2,3次元などでも用いられる方法で証明する。

$\boldsymbol{ w }$ は、平面の式を考えると、法線ベクトルである。

距離を求めたい今回の点を $\boldsymbol{ s }$ とし、
そこから、伸びた超平面の垂線と超平面との交点を、
$\boldsymbol{ t }$ とすると、

$d = |\vec{ st }| = k|\boldsymbol{w}|$

ここで、kを求めるために、 $\boldsymbol{ t }$ を消去する。
tは、超平面より、
$\boldsymbol{ w }^T\boldsymbol{ t }+ b = 0$ を満たす。
また、 $\boldsymbol{ t } = \boldsymbol{w} + \boldsymbol{s}$ を考えて
$k\boldsymbol{ w }^T\boldsymbol{w} + \boldsymbol{ w }^T\boldsymbol{s}+ b = 0 \therefore s = - \frac{ \boldsymbol{ w }^T\boldsymbol{s}+ b }{ |\boldsymbol{w}|^2 }\$

よって、
$d = |k\boldsymbol{w}| = \frac{ | \boldsymbol{ w }^T\boldsymbol{s}+ b |}{ |\boldsymbol{w}|^2 }|\boldsymbol{w}|= \frac{ |\boldsymbol{ w }^T\boldsymbol{s}+ b |}{ |\boldsymbol{w}| }$

問8.2

(1) $y_i$ の符号と $\boldsymbol{ w }^T \boldsymbol{ x_i } + b$ の符号が同符号より

(2)最大化することが目的で、スケールを無視できることを用いれる。

証明は、(8.12)あたりに書いてあるので省略

問8.3

(8.19)あたりに書いてあるので省略

問8.4

サポートベクトルとは、 $y_i\boldsymbol{w}^T\boldsymbol{x_i} = 1$ の点。

Kurush-Kuhn－Tucker条件の式(8.30)の初めに(3)(4)の代入である(8.32)を考える。

$g(\boldsymbol{w}_i ) \leq 0$ より、(4)の条件を満たすには、

$\alpha_i = 0$ になる。

問8.5

p208 あたりと同じ

問8.6

結構一緒

2019-08-06

多変量解析入門　第６章　解答

多変量解析入門データサイエンス

第６章

この本の解答がなかったので作っていく、

多変量解析入門――線形から非線形へ

作者: 小西貞則
出版社/メーカー: 岩波書店
発売日: 2010/01/27
メディア: 単行本（ソフトカバー）
購入: 14人クリック: 347回
この商品を含むブログ (9件) を見る

他の章の解答はこちら

yosuke-programing.hatenadiary.com

第６章
問6.1
問6.2
問6.3
問6.4
問6.5
問6.6

問6.1

ほとんど(6.12)に書いてあるので省略

問6.2

$\lambda$ をこの後使いたいので、この本内では、 $\lambda$ の式になっているが、 $\eta$ にする。
$\eta = \frac{\boldsymbol{ w }^T(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2 ) ^ T \boldsymbol{ w }}{\boldsymbol{ w } ^ T S \boldsymbol{ w } }$
を最大化する。

$\eta$ を $\boldsymbol{ w }$ の関数と見た時

$\eta(\boldsymbol{ w }) = \eta(\alpha \boldsymbol{ w }) \quad \alpha \in R$
(代入すると分かる)、つまり、 $\boldsymbol{ w }$ の尺度は関係ない。なので、
$\boldsymbol{ w } ^ T S \boldsymbol{ w } = 1$ と制約条件を付けても一般性を欠かない。

制約条件があるので、ラグランジュの未定乗数法をもちいて、
$L = \boldsymbol{ w }^T(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2 ) ^ T \boldsymbol{ w } - \lambda( \boldsymbol{ w } ^ T S \boldsymbol{ w } - 1)\\\frac{\partial L }{\partial \boldsymbol{ w } } = 2(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2 ) \boldsymbol{ w } - 2\lambda S \boldsymbol{ w } = 0\\\therefore S^{-1}(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2 ) \boldsymbol{ w } = \lambda \boldsymbol{ w }\\$
よって、固有値問題に帰着した。
また、 $S^{-1}(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2 ) \boldsymbol{ w } = \lambda \boldsymbol{ w }\\(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2 ) \boldsymbol{ w }$ と $\lambda$ は、スカラーであるので、\\
$\boldsymbol{ w } \propto S^{-1}(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)$
関数 $\eta$ は $\boldsymbol{ w }$ の尺度に関係ないので、

$\boldsymbol{ w } = S^{-1}(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)$

ラグランジュの未定乗数法の簡単な説明はこちら

yosuke-programing.hatenadiary.com

問6.3

(1)計算するだけなので過程は省略。

$\begin{eqnarray}S^{-1} = \left(\begin{array}{c}3 \quad 1 \\1 \quad 2 \\\end{array}\right)\end{eqnarray}$

$D^2_1 = 3x_1^2 - 2x_1+2x_1x_2 - 2x_2 + 2x^2_2 + 2$

$D^2_2 = 3x_1^2 - 6x_1+2x_1x_2 - 2x_2 + 2x^2_2 + 3$

(2)なぜか、x_1だけの線形結合に、、、

$D^2_1 - D^2_2 = 4x_1 - 1$

(3) $h(0.5, 0.8) = 1 \geqq 0$ より、 $D_2$

問6.4

代入するだけ

問6.5

省略

問6.6

結構詳しくこの本に書いてある

2019-08-06

多変量解析入門　解答　第５章

多変量解析入門データサイエンス

第５章　モデル評価基準

各省でも少し扱ってきたAICなどに加えて、BIC（ベイズ型モデル評価基準）やクロスバリデーションなどの評価方法。

多変量解析入門――線形から非線形へ

作者: 小西貞則
出版社/メーカー: 岩波書店
発売日: 2010/01/27
メディア: 単行本（ソフトカバー）
購入: 14人クリック: 347回
この商品を含むブログ (9件) を見る

他の章の解答はこちら

yosuke-programing.hatenadiary.com

第５章　モデル評価基準
問5.1 K.L情報量
- K.L情報量とは
- 解答
問5.2
問5.3
問5.4
問5.5
問5.6

問5.1 K.L情報量

K.L情報量とは

平均的な良さ、真のモデルとの違いを計算するモデルである。

g(Z)が、真のモデル、 $f(Z|\boldsymbol{\hat{\theta}})$ が予測したモデル

$I\{g(z), f(Z|\boldsymbol{\hat{\theta}})\} = E_G\left[log\frac{g(Z)}{f(Z|\boldsymbol{\hat{\theta}})}\right]$

解答

今回の問題は、性質を計算で確かめる問題

(i)

$I\{g(z), f(Z|\boldsymbol{\hat{\theta}})\} = E_G\left[log\frac{g(Z)}{f(Z|\boldsymbol{\hat{\theta}})}\right]\geqq 0$

を示す。

$$g(Z)が、真のモデル、 $f(Z|\boldsymbol{\hat{\theta}})$ が予測したモデル

$I\{g(z), f(Z|\boldsymbol{\hat{\theta}})\} = E_G\left[log\frac{g(Z)}{f(Z|\boldsymbol{\hat{\theta}})}\right]$

中身を考えると、
今回は離散でやる

$I\{g(z), f(Z|\boldsymbol{\hat{\theta}})\} = E_G\left[log\frac{g(Z)}{f(Z|\boldsymbol{\hat{\theta}})}\right]$
$=\sum^\infty_{-\infty}\left\{log\frac{g(z)}{f(z|\boldsymbol{\hat{\theta}})}\right\}g(z)\\ \geqq\sum^\infty_{-\infty}g(z) - f(z|\boldsymbol{\hat{\theta}}) = 0$
これは、
$log\frac{p}{q} \geqq 1 - \frac{q}{p}\\$
を用いた。微分して極限とると分かる。

(ii)logの中身が１になるため $log 1 = 0$

問5.2

今回は、KL情報量の具体例。計算大変

(1)
$E_G[log(g(\boldsymbol{Y}))]=\int_{-\infty}^{\infty}log(\frac{1}{\sqrt{2\pi\tau^2}}exp\left\{-\frac{(z - m)^2}{2\tau^2}\right\})g(z)dz\\=-\frac{1}{2}log(2\pi\tau^2) - \frac{1}{2\tau^2}\int_{-\infty}^{\infty}(z - m)^2g(z)dz\\ =-\frac{1}{2}log(2\pi\tau^2) - \frac{1}{2}$
$\left( \because \int_{-\infty}^{\infty}(z - \mu)^2g(z)dz = \tau^2 \right )$

(2)

$E_G[log(g(\boldsymbol{Y}))] = \int_{-\infty}^{\infty}log(\frac{1}{\sqrt{2\pi\sigma^2}}exp\left\{-\frac{(z - \mu)^2}{2\sigma^2}\right\})g(z)dz\\=-\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\int_{-\infty}^{\infty}(z - \mu)^2g(z)dz\\ = -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\frac{1}{\sqrt{2\pi\tau^2}}\int_{-\infty}^{\infty}(z - \mu)^2exp\left\{-\frac{(z - m)^2}{2\tau^2}\right\}dz\\= -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2\sqrt{\pi}}\int_{-\infty}^{\infty}\left\{2\tau^2t^2 + 2\sqrt{2}\tau t( m- \mu) + (m -\mu)^2\right\}e^{-t^2} dz\\\left(\frac{z - m}{\sqrt{2}\tau} \rightarrow t , dz = \sqrt{2}\tau t \right)$

ここで、ガウス積分を用いて、
$\int^\infty_{-\infty}t^2e^{-t^2}dz = \frac{\sqrt{\pi}}{2}\\\int^\infty_{-\infty}e^{-t^2}dz = \sqrt{\pi}\\\int^\infty_{-\infty}te^{-t^2}dz = 0$

$E_G[log(g(\boldsymbol{Y}))] = -\frac{1}{2}log(2\pi\sigma^2) -\frac{ \tau^2 + (m - \mu)^2}{ 2\sigma^2 }$

結構大変

（３）まとめるだけ

問5.3

また具体例。結構大変

(1)

$\int^\infty_{-\infty}log\{g(y)\} g(y)dy \\=\int^\infty_{-\infty}\left\{log(\frac{1}{2})-|y|\right\}g(y)dy\\=-log(2) - 1$

(2)

$E_G \left[log \{f(\boldsymbol{ Y })\}\right] = -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\int_{-\infty}^{\infty}(y - \mu)^2\frac{ 1 }{ 2 }exp(-|y|) dy\\ = -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{4\sigma^2}\int_{-\infty}^{\infty}(y^2 - 2y\mu + \mu^2)exp(-|y|) dy\\ = -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\int_{0}^{\infty}(y^2 + \mu^2)exp(-y) dy \\$

$\int x^2exp (-x)dx = -(x^2+2x+2)・e^{-x} +C$ を用いると示される

(3)（１）と(2)をまとめるだけ

問5.4

計算すると

$I(g; f_a) = 0.0230$

$I(g; f_b) = 0.0204$

となるので、 $f_b$ の方がよい

問5.5

(5.39)に代入していって比較する。

問5.6

初めに対数尤度を求める

$l(\boldsymbol{ p }) = log(n!) + \sum_l^k n_llog(p_l) - \sum_l^k log(n_l !)$

確率の制約条件があるので、ラグランジュの未定乗数法を用いる。
$L(p ,\alpha) = log(n!) + \sum_l^k n_llog(p_l) - \sum_l^k log(n_l !) - \alpha\left(\sum_l^k p_i - 1\right)$
上の式が最小になる $p_t$ を考える。
$\frac{ \partial L(p, \alpha) }{ \partial p_t } = \frac{ n_t }{ p_t } - \alpha \\\therefore \alpha = \frac{ n_t }{ p_t }$

の時である。すべての $p_t$ について言えるので、\\
$\alpha = \frac{ n_1 }{ p_k } = \frac{ n_k }{ p_2 } =\cdots =\frac{ n_k }{ p_k }$ \\

これを満たすのは、確率ということも考えると、\\

$p_t = \frac{ n_t }{ n }$

よって、最大尤度は、
$l(\boldsymbol{ p }) = log(n!) + \sum_l^k n_llog(\frac{ n_l }{ n }) - \sum_l^k log(n_l !)$
よって、
$AIC = -2\left\{ log(n!) - \sum_l^k log(n_l !) + \sum_l^k n_llog(\frac{ n_l }{ n }) \right \} + 2(k-1)$

証明の概略

1. 標準正規分布の二乗が自由度１のカイ二乗分布に従うことを証明する。

2. 二つのカイ二乗分布の和の分布もまたカイ二乗分布に従うことを持ちいて証明する。

標準正規分布の二乗が自由度１のカイ二乗分布に従う

カイ二乗分布について

ガンマ分布

自由度1のカイ二乗分布

標準正規分布の二乗の分布について

標準正規分布の二乗が自由度１のカイ二乗分布に従う

ガンマ関数の特性関数

自由度カイ二乗分布の特性分布

足した場合を考える

問10.1

問10.2

問10.3

問10.4

問10.5

あらすじ

感想

第８章 サポートベクトルマシン

問8.1

問8.2

問8.3

問8.4

問8.5

問8.6

第６章

問6.1

問6.2

問6.3

問6.4

問6.5

問6.6

第５章 モデル評価基準

問5.1 K.L情報量

K.L情報量とは

解答

問5.2

問5.3

問5.4

問5.5

問5.6

第８章サポートベクトルマシン

第５章　モデル評価基準