$\boldsymbol{ x_c } = \frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 } +n_2\boldsymbol{ \bar{x}_2 } } }{ n_1 + n_2 }\\ \sum_{j \in (1, 2)}\left\{ \sum_{i}\left( |\boldsymbol{ x_{ij}} - \boldsymbol{ x_c }|^2 - | \boldsymbol{ x_{ij} } - \boldsymbol{ \bar{x}_j }|^2\right ) \right\} = \\ \sum_{j \in (1, 2)}\left\{ \sum_{i}\left( \boldsymbol{ x_{ij}}^T\boldsymbol{ x_{ij}} - \boldsymbol{ x_{ij}}^T\boldsymbol{ x_c } - \boldsymbol{ x_c }^T\boldsymbol{ x_{ij}} + \boldsymbol{ x_c }^T\boldsymbol{ x_c } - \boldsymbol{ x_{ij}}^T\boldsymbol{ x_{ij}} + \boldsymbol{ x_{ij}}^T\boldsymbol{ \bar{x}_j } + \boldsymbol{ \bar{x}_j }^T\boldsymbol{ x_{ij}} - \boldsymbol{ \bar{x}_j }^T\boldsymbol{\bar{x}_j } \right ) \right\} = \\ \sum_{j \in (1, 2)}\left\{ \sum_{i}\left( - \boldsymbol{ x_{ij}}^T\boldsymbol{ x_c } - \boldsymbol{ x_c }^T\boldsymbol{ x_{ij}} + \boldsymbol{ x_c }^T\boldsymbol{ x_c } + \boldsymbol{ x_{ij}}^T\boldsymbol{ \bar{x}_j } + \boldsymbol{ \bar{x}_j }^T\boldsymbol{ x_{ij}} - \boldsymbol{ \bar{x}_j }^T\boldsymbol{\bar{x}_j } \right ) \right\} = \\ \sum_{j \in (1, 2)}\left\{ - n_j\boldsymbol{ \bar{x}_j }^T\boldsymbol{ x_c } - n_j\boldsymbol{ x_c }^T\boldsymbol{ \bar{x}_j } + n_j\boldsymbol{ x_c }^T\boldsymbol{ x_c } + n_j\boldsymbol{ \bar{x}_j }^T\boldsymbol{ \bar{x}_j } + n_j\boldsymbol{ \bar{x}_j }^T\boldsymbol{ \bar{x}_j } - n_j\boldsymbol{ \bar{x}_j }^T\boldsymbol{\bar{x}_j } \right\} = \\ \sum_{j \in (1, 2)}\left\{ - n_j\boldsymbol{ \bar{x}_j }^T\boldsymbol{ x_c } - n_j\boldsymbol{ x_c }^T\boldsymbol{ \bar{x}_j } + n_j\boldsymbol{ x_c }^T\boldsymbol{ x_c } + n_j\boldsymbol{ \bar{x}_j }^T\boldsymbol{ \bar{x}_j } \right\} = \\ \sum_{j \in (1, 2)}n_j\left| \boldsymbol{ \bar{x}_j } - \boldsymbol{ x_c } \right|^2$

(2)重心と相対に分けるというのは、高校でもやる物理の二体問題でよくある手。そんな感じの問題。

$\sum_{j \in (1, 2)}n_1\left| \boldsymbol{ \bar{x}_j } - \boldsymbol{ x_c } \right|^2 = \\ n_1\left( \boldsymbol{ \bar{x}_1}^T\boldsymbol{ \bar{x}_1} - \boldsymbol{ \bar{x}_1}^T\frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 } + n_2\boldsymbol{ \bar{x}_2 } } }{ n_1 + n_2 } - \frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 }^T + n_2\boldsymbol{ \bar{x}_2 }^T } }{ n_1 + n_2 } \boldsymbol{ \bar{x}_1 + \frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 }^T + n_2\boldsymbol{ \bar{x}_2 }^T } }{ n_1 + n_2 } \cdot\frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 } + n_2\boldsymbol{ \bar{x}_2 } } }{ n_1 + n_2 } } \right) + \\n_2\left( \boldsymbol{ \bar{x}_2}^T\boldsymbol{ \bar{x}_2} - \boldsymbol{ \bar{x}_2}^T\frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 } + n_2\boldsymbol{ \bar{x}_2 } } }{ n_1 + n_2 } - \frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 }^T + n_2\boldsymbol{ \bar{x}_2 }^T } }{ n_1 + n_2 } \boldsymbol{ \bar{x}_2 + \frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 }^T + n_2\boldsymbol{ \bar{x}_2 }^T } }{ n_1 + n_2 }\cdot \frac{ \boldsymbol{ n_1\boldsymbol{ \bar{x}_1 } + n_2\boldsymbol{ \bar{x}_2 } } }{ n_1 + n_2 } } \right)\\$

書くのにつかれた。あとは計算。

今回の問題は、絵にかくとすごくわかりやすく見えてくる。

問10.3

似たようなもん

問10.4

（１）期待値の中の和が期待値になるので

（２）まず期待値の中のを展開すると見える。

問10.5

上の考え方をつかう。

2019-08-14

動物農場読書日記

読書

今回読んだのはこの本、短めで人間の皮肉が書かれている

動物農場〔新訳版〕 (ハヤカワepi文庫)

作者: ジョージ・オーウェル,水戸部功,山形浩生
出版社/メーカー: 早川書房
発売日: 2017/01/07
メディア: 文庫
この商品を含むブログ (6件) を見る

あらすじ

農場の主人を追い出した動物たちは、全ての動物が平等に生活するための楽園を作った。その社会のために、賢いブタが主導で戒律を作り共和国となり、大統領にまでなった。そうして発展していくに従って、ブタの特権や権威が大きくなっていく。人間からの服従から解放された動物たちは、本当の自由を手に入れられるのか！！

感想

ブタがビール飲んでぶよぶよしたりと動物たちが面白かった。

現実社会でも、トップの人たちが有利に動くために、メディアを使い、大きなお祭りでごまかし、ラージスピーカーが大切な声をかき消すことがある。そのことが、面白い動物たちの行動となっていてよかった。社会のトップとかになるとはこういうこともあるんだろうなって思った。

2019-08-11

多変量解析入門　解答　第８章　サポートベクトルマシン

多変量解析入門データサイエンス

第８章サポートベクトルマシン

この本の解答がなかったので作っていく、

多変量解析入門――線形から非線形へ

作者: 小西貞則
出版社/メーカー: 岩波書店
発売日: 2010/01/27
メディア: 単行本（ソフトカバー）
購入: 14人クリック: 347回
この商品を含むブログ (9件) を見る

他の章の解答はこちら

yosuke-programing.hatenadiary.com

第８章サポートベクトルマシン
- 問8.1
- 問8.2
- 問8.3
- 問8.4
- 問8.5
- 問8.6

問8.1

直交ベクトルを用いて基本的に、2,3次元などでも用いられる方法で証明する。

$\boldsymbol{ w }$ は、平面の式を考えると、法線ベクトルである。

距離を求めたい今回の点を $\boldsymbol{ s }$ とし、
そこから、伸びた超平面の垂線と超平面との交点を、
$\boldsymbol{ t }$ とすると、

$d = |\vec{ st }| = k|\boldsymbol{w}|$

ここで、kを求めるために、 $\boldsymbol{ t }$ を消去する。
tは、超平面より、
$\boldsymbol{ w }^T\boldsymbol{ t }+ b = 0$ を満たす。
また、 $\boldsymbol{ t } = \boldsymbol{w} + \boldsymbol{s}$ を考えて
$k\boldsymbol{ w }^T\boldsymbol{w} + \boldsymbol{ w }^T\boldsymbol{s}+ b = 0 \therefore s = - \frac{ \boldsymbol{ w }^T\boldsymbol{s}+ b }{ |\boldsymbol{w}|^2 }\$

よって、
$d = |k\boldsymbol{w}| = \frac{ | \boldsymbol{ w }^T\boldsymbol{s}+ b |}{ |\boldsymbol{w}|^2 }|\boldsymbol{w}|= \frac{ |\boldsymbol{ w }^T\boldsymbol{s}+ b |}{ |\boldsymbol{w}| }$

問8.2

(1) $y_i$ の符号と $\boldsymbol{ w }^T \boldsymbol{ x_i } + b$ の符号が同符号より

(2)最大化することが目的で、スケールを無視できることを用いれる。

証明は、(8.12)あたりに書いてあるので省略

問8.3

(8.19)あたりに書いてあるので省略

問8.4

サポートベクトルとは、 $y_i\boldsymbol{w}^T\boldsymbol{x_i} = 1$ の点。

Kurush-Kuhn－Tucker条件の式(8.30)の初めに(3)(4)の代入である(8.32)を考える。

$g(\boldsymbol{w}_i ) \leq 0$ より、(4)の条件を満たすには、

$\alpha_i = 0$ になる。

問8.5

p208 あたりと同じ

問8.6

結構一緒

2019-08-06

多変量解析入門　第６章　解答

多変量解析入門データサイエンス

第６章

この本の解答がなかったので作っていく、

多変量解析入門――線形から非線形へ

作者: 小西貞則
出版社/メーカー: 岩波書店
発売日: 2010/01/27
メディア: 単行本（ソフトカバー）
購入: 14人クリック: 347回
この商品を含むブログ (9件) を見る

他の章の解答はこちら

yosuke-programing.hatenadiary.com

第６章
問6.1
問6.2
問6.3
問6.4
問6.5
問6.6

問6.1

ほとんど(6.12)に書いてあるので省略

問6.2

$\lambda$ をこの後使いたいので、この本内では、 $\lambda$ の式になっているが、 $\eta$ にする。
$\eta = \frac{\boldsymbol{ w }^T(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2 ) ^ T \boldsymbol{ w }}{\boldsymbol{ w } ^ T S \boldsymbol{ w } }$
を最大化する。

$\eta$ を $\boldsymbol{ w }$ の関数と見た時

$\eta(\boldsymbol{ w }) = \eta(\alpha \boldsymbol{ w }) \quad \alpha \in R$
(代入すると分かる)、つまり、 $\boldsymbol{ w }$ の尺度は関係ない。なので、
$\boldsymbol{ w } ^ T S \boldsymbol{ w } = 1$ と制約条件を付けても一般性を欠かない。

制約条件があるので、ラグランジュの未定乗数法をもちいて、
$L = \boldsymbol{ w }^T(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2 ) ^ T \boldsymbol{ w } - \lambda( \boldsymbol{ w } ^ T S \boldsymbol{ w } - 1)\\\frac{\partial L }{\partial \boldsymbol{ w } } = 2(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2 ) \boldsymbol{ w } - 2\lambda S \boldsymbol{ w } = 0\\\therefore S^{-1}(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2 ) \boldsymbol{ w } = \lambda \boldsymbol{ w }\\$
よって、固有値問題に帰着した。
また、 $S^{-1}(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2 ) \boldsymbol{ w } = \lambda \boldsymbol{ w }\\(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2 ) \boldsymbol{ w }$ と $\lambda$ は、スカラーであるので、\\
$\boldsymbol{ w } \propto S^{-1}(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)$
関数 $\eta$ は $\boldsymbol{ w }$ の尺度に関係ないので、

$\boldsymbol{ w } = S^{-1}(\bar{ \boldsymbol{ x } }_1 - \bar{ \boldsymbol{ x } }_2)$

ラグランジュの未定乗数法の簡単な説明はこちら

yosuke-programing.hatenadiary.com

問6.3

(1)計算するだけなので過程は省略。

$\begin{eqnarray}S^{-1} = \left(\begin{array}{c}3 \quad 1 \\1 \quad 2 \\\end{array}\right)\end{eqnarray}$

$D^2_1 = 3x_1^2 - 2x_1+2x_1x_2 - 2x_2 + 2x^2_2 + 2$

$D^2_2 = 3x_1^2 - 6x_1+2x_1x_2 - 2x_2 + 2x^2_2 + 3$

(2)なぜか、x_1だけの線形結合に、、、

$D^2_1 - D^2_2 = 4x_1 - 1$

(3) $h(0.5, 0.8) = 1 \geqq 0$ より、 $D_2$

問6.4

代入するだけ

問6.5

省略

問6.6

結構詳しくこの本に書いてある

2019-08-06

多変量解析入門　解答　第５章

多変量解析入門データサイエンス

第５章　モデル評価基準

各省でも少し扱ってきたAICなどに加えて、BIC（ベイズ型モデル評価基準）やクロスバリデーションなどの評価方法。

多変量解析入門――線形から非線形へ

作者: 小西貞則
出版社/メーカー: 岩波書店
発売日: 2010/01/27
メディア: 単行本（ソフトカバー）
購入: 14人クリック: 347回
この商品を含むブログ (9件) を見る

他の章の解答はこちら

yosuke-programing.hatenadiary.com

第５章　モデル評価基準
問5.1 K.L情報量
- K.L情報量とは
- 解答
問5.2
問5.3
問5.4
問5.5
問5.6

問5.1 K.L情報量

K.L情報量とは

平均的な良さ、真のモデルとの違いを計算するモデルである。

g(Z)が、真のモデル、 $f(Z|\boldsymbol{\hat{\theta}})$ が予測したモデル

$I\{g(z), f(Z|\boldsymbol{\hat{\theta}})\} = E_G\left[log\frac{g(Z)}{f(Z|\boldsymbol{\hat{\theta}})}\right]$

解答

今回の問題は、性質を計算で確かめる問題

(i)

$I\{g(z), f(Z|\boldsymbol{\hat{\theta}})\} = E_G\left[log\frac{g(Z)}{f(Z|\boldsymbol{\hat{\theta}})}\right]\geqq 0$

を示す。

$$g(Z)が、真のモデル、 $f(Z|\boldsymbol{\hat{\theta}})$ が予測したモデル

$I\{g(z), f(Z|\boldsymbol{\hat{\theta}})\} = E_G\left[log\frac{g(Z)}{f(Z|\boldsymbol{\hat{\theta}})}\right]$

中身を考えると、
今回は離散でやる

$I\{g(z), f(Z|\boldsymbol{\hat{\theta}})\} = E_G\left[log\frac{g(Z)}{f(Z|\boldsymbol{\hat{\theta}})}\right]$
$=\sum^\infty_{-\infty}\left\{log\frac{g(z)}{f(z|\boldsymbol{\hat{\theta}})}\right\}g(z)\\ \geqq\sum^\infty_{-\infty}g(z) - f(z|\boldsymbol{\hat{\theta}}) = 0$
これは、
$log\frac{p}{q} \geqq 1 - \frac{q}{p}\\$
を用いた。微分して極限とると分かる。

(ii)logの中身が１になるため $log 1 = 0$

問5.2

今回は、KL情報量の具体例。計算大変

(1)
$E_G[log(g(\boldsymbol{Y}))]=\int_{-\infty}^{\infty}log(\frac{1}{\sqrt{2\pi\tau^2}}exp\left\{-\frac{(z - m)^2}{2\tau^2}\right\})g(z)dz\\=-\frac{1}{2}log(2\pi\tau^2) - \frac{1}{2\tau^2}\int_{-\infty}^{\infty}(z - m)^2g(z)dz\\ =-\frac{1}{2}log(2\pi\tau^2) - \frac{1}{2}$
$\left( \because \int_{-\infty}^{\infty}(z - \mu)^2g(z)dz = \tau^2 \right )$

(2)

$E_G[log(g(\boldsymbol{Y}))] = \int_{-\infty}^{\infty}log(\frac{1}{\sqrt{2\pi\sigma^2}}exp\left\{-\frac{(z - \mu)^2}{2\sigma^2}\right\})g(z)dz\\=-\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\int_{-\infty}^{\infty}(z - \mu)^2g(z)dz\\ = -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\frac{1}{\sqrt{2\pi\tau^2}}\int_{-\infty}^{\infty}(z - \mu)^2exp\left\{-\frac{(z - m)^2}{2\tau^2}\right\}dz\\= -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2\sqrt{\pi}}\int_{-\infty}^{\infty}\left\{2\tau^2t^2 + 2\sqrt{2}\tau t( m- \mu) + (m -\mu)^2\right\}e^{-t^2} dz\\\left(\frac{z - m}{\sqrt{2}\tau} \rightarrow t , dz = \sqrt{2}\tau t \right)$

ここで、ガウス積分を用いて、
$\int^\infty_{-\infty}t^2e^{-t^2}dz = \frac{\sqrt{\pi}}{2}\\\int^\infty_{-\infty}e^{-t^2}dz = \sqrt{\pi}\\\int^\infty_{-\infty}te^{-t^2}dz = 0$

$E_G[log(g(\boldsymbol{Y}))] = -\frac{1}{2}log(2\pi\sigma^2) -\frac{ \tau^2 + (m - \mu)^2}{ 2\sigma^2 }$

結構大変

（３）まとめるだけ

問5.3

また具体例。結構大変

(1)

$\int^\infty_{-\infty}log\{g(y)\} g(y)dy \\=\int^\infty_{-\infty}\left\{log(\frac{1}{2})-|y|\right\}g(y)dy\\=-log(2) - 1$

(2)

$E_G \left[log \{f(\boldsymbol{ Y })\}\right] = -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\int_{-\infty}^{\infty}(y - \mu)^2\frac{ 1 }{ 2 }exp(-|y|) dy\\ = -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{4\sigma^2}\int_{-\infty}^{\infty}(y^2 - 2y\mu + \mu^2)exp(-|y|) dy\\ = -\frac{1}{2}log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\int_{0}^{\infty}(y^2 + \mu^2)exp(-y) dy \\$

$\int x^2exp (-x)dx = -(x^2+2x+2)・e^{-x} +C$ を用いると示される

(3)（１）と(2)をまとめるだけ

問5.4

計算すると

$I(g; f_a) = 0.0230$

$I(g; f_b) = 0.0204$

となるので、 $f_b$ の方がよい

問5.5

(5.39)に代入していって比較する。

問5.6

初めに対数尤度を求める

$l(\boldsymbol{ p }) = log(n!) + \sum_l^k n_llog(p_l) - \sum_l^k log(n_l !)$

確率の制約条件があるので、ラグランジュの未定乗数法を用いる。
$L(p ,\alpha) = log(n!) + \sum_l^k n_llog(p_l) - \sum_l^k log(n_l !) - \alpha\left(\sum_l^k p_i - 1\right)$
上の式が最小になる $p_t$ を考える。
$\frac{ \partial L(p, \alpha) }{ \partial p_t } = \frac{ n_t }{ p_t } - \alpha \\\therefore \alpha = \frac{ n_t }{ p_t }$

の時である。すべての $p_t$ について言えるので、\\
$\alpha = \frac{ n_1 }{ p_k } = \frac{ n_k }{ p_2 } =\cdots =\frac{ n_k }{ p_k }$ \\

これを満たすのは、確率ということも考えると、\\

$p_t = \frac{ n_t }{ n }$

よって、最大尤度は、
$l(\boldsymbol{ p }) = log(n!) + \sum_l^k n_llog(\frac{ n_l }{ n }) - \sum_l^k log(n_l !)$
よって、
$AIC = -2\left\{ log(n!) - \sum_l^k log(n_l !) + \sum_l^k n_llog(\frac{ n_l }{ n }) \right \} + 2(k-1)$

2019-08-05

ガウス・マルコフの定理

ガウス・マルコフの定理が多変量解析入門で出ていなかったので調べた。

ガウス・マルコフの定理とは

式はこう

$V(\boldsymbol{\hat{\beta}})\geqq V()$ \boldsymbol{b}]

$\boldsymbol{\hat{\beta}} = (X^TX)^{-1}X^T\boldstyle{y}$

$\boldstyle{b} = C\boldstyle{y}$

これは、線形回帰モデルの時に、推定されたパラメータが最も分散も小さくなるということを言っている。

分散が小さいことは、推定する時には、ばらつきが少ないということなので、推定された時に、値が真の値に近くなるということ。

不偏推定量

まず、不偏推定量の確認。
推定量の平均が真の値となるときにそれが不偏推定量になる。
つまり、たくさんやって平均とっても真の値にならないものサンプリングしても意味ないので、
そのための考え方.

$\boldsymbol{b} = C\boldsymbol{y}$ と表せるとする。

その一つが、最小2乗法で求まる, $\hat{\boldsymbol{\beta}} = (X^TX)^{-1}X^T\boldsymbol{y}$ である。
$\begin{eqnarray}E(\hat{\boldsymbol{\beta}}) = (X^TX)^{-1}X^TE[\boldsymbol{y}] \\=(X^TX)^{-1}X^TX\boldsymbol{\beta}\\= \boldsymbol{\beta}\end{eqnarray}$
よって不偏推定量であることがわかる。

では、一般に
$\boldsymbol{b}$ が不偏推定量となる時を考えると
$\begin{eqnarray}E[\boldsymbol{b}] = CE[\boldsymbol{y}]\\= CX\boldsymbol{\beta}\end{eqnarray}$
となるので、 $CX＝I$ の時不偏推定量となる。

本題のガウス・マルコフの定理

$V(\boldsymbol{b}) = V(C\boldsymbol{y}) = E(C\boldsymbol{y}(C\boldsymbol{y})^T)\\ =CE(\boldsymbol{y}\boldsymbol{y}^T)C^T \\= CV(\boldsymbol{y})C^T \\= I\sigma^2C^T \\=\sigma^2CC^T$

$\boldsymbol{b}$ が不変であるためには、CX = Iとなる必要があるので、\\
$C^\ast = (X^TX)^{-1}X$ とする(最小2乗法のやつ)

$V(\boldsymbol{b}) = \sigma^2( {C - C^\ast + C^\ast})({C - C^\ast + C^\ast})^T\\$

$= \sigma^2\{(C - C^\ast)(C - C^\ast)^T + C^\ast(C - C^\ast)^T + (C - C^\ast){C^\ast}^T + C^\ast {C^\ast}^T\}$

$= \sigma^2\{(C - C^\ast)(C - C^\ast)^T + C^\ast{C^\ast}^T\}$

また、

$C^\ast(C - C^\ast)^T + (C - C^\ast){C^\ast}^T$ $= C^\ast C^T - C^\ast{C^\ast}^T + C{C^\ast}^T - C^\ast {C^\ast}^T \\= - C^\ast{C^\ast}^T + C{C^\ast}^T$