Python機械学習プログラミングの第7章までに紹介されている機械学習の本まとめ 

Python機械学習プログラミングでは実装に重きを置いているので、数学的な十頃は他の本や論文に任せているので、ところどころで本が紹介されている。数学的な部分が知りたいときに、どの本を参考にしたらいいのか探すのはいちいち難しいのでまとめた。ぬけがあったらごめんなさい

 

[第2版]Python 機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)

[第2版]Python 機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)

 

 

第1章 「データから学習する能力」をコンピュータに与える

ノーフリーランチの紹介

ci.nii.ac.jp

ieeexplore.ieee.org

 

ハンマーしか持ってなければ全てが釘に見える 

可能性の心理学 (1971年)

可能性の心理学 (1971年)

 

 

第2章 分類問題―単純な機械学習アルゴリズムのトレーニン

線形代数

線型代数入門 (基礎数学1)

線型代数入門 (基礎数学1)

線型代数入門

線型代数入門

線型代数学(新装版) (数学選書)

線型代数学(新装版) (数学選書)

 
プログラミングのための線形代数

プログラミングのための線形代数

 
線形代数と幾何 ベクトル・行列・行列式がよくわかる

線形代数と幾何 ベクトル・行列・行列式がよくわかる

 
まずはこの一冊から 意味がわかる線形代数 (BERET SCIENCE)

まずはこの一冊から 意味がわかる線形代数 (BERET SCIENCE)

 

 

ライブラリ入門

以下の第2章

データサイエンティスト養成読本 機械学習入門編

データサイエンティスト養成読本 機械学習入門編

 
Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理

Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理

 

www.kamishima.net

Adaline

ntrl.ntis.gov


第3章 分類問題―機械学習ライブラリscikit-learnの活用 

ロジスティック回帰

一般化線形モデル入門 原著第2版

一般化線形モデル入門 原著第2版

 

SVM

The Nature of Statistical Learning Theory (Information Science and Statistics)

The Nature of Statistical Learning Theory (Information Science and Statistics)

 
サポートベクトルマシン (機械学習プロフェッショナルシリーズ)

サポートベクトルマシン (機械学習プロフェッショナルシリーズ)

 

link.springer.com

https://www.di.ens.fr/~mallat/papiers/svmtutorial.pdf

可視化 .dotファイル

GraphViz

Pydotplus

データ構造ありのアルゴリズム

https://homes.di.unimi.it/righini/Didattica/AlgoritmiEuristici/MaterialeAE/Friedman%20k-d%20trees.pdf

scimitar-learnの文献

arxiv.org

第4章 データ前処理―よりよいトレーニングセットの構築

L1正則化が疎な解につながる数学的理由

The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition (Springer Series in Statistics)

The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition (Springer Series in Statistics)

 
統計的学習の基礎 ―データマイニング・推論・予測―

統計的学習の基礎 ―データマイニング・推論・予測―

  • 作者: Trevor Hastie,Robert Tibshirani,Jerome Friedman,杉山将,井手剛,神嶌敏弘,栗田多喜夫,前田英作,井尻善久,岩田具治,金森敬文,兼村厚範,烏山昌幸,河原吉伸,木村昭悟,小西嘉典,酒井智弥,鈴木大慈,竹内一郎,玉木徹,出口大輔,冨岡亮太,波部斉,前田新一,持橋大地,山田誠
  • 出版社/メーカー: 共立出版
  • 発売日: 2014/06/25
  • メディア: 単行本
  • この商品を含むブログ (6件) を見る
 

特徴選択

 

データマイニングの基礎 (IT Text)

データマイニングの基礎 (IT Text)

 

 

特徴選択のアルゴリズム

http://www.jmlr.org/papers/v3/guyon03a.html

http://www.jmlr.org/papers/volume3/guyon03a/guyon03a.pdf

www.sciencedirect.com


第5章 次元削減でデータを圧縮する

 PCAがLDAより優れているとき

ieeexplore.ieee.org

LDAの上から2分類多分類

ci.nii.ac.jp

www.jstor.org

次元削減ためのLDA

パターン識別

パターン識別

 
Pattern Classification

Pattern Classification

 

 共分散の一般化

http://pca.narod.ru/scholkopf_kernel.pdf

ww2.mathworks.cn


Scikit-learnの非線形次元削減の最新の実装

scikit-learn.org

非線形次元削減

カーネル多変量解析―非線形データ解析の新しい展開 (シリーズ確率と情報の科学)

カーネル多変量解析―非線形データ解析の新しい展開 (シリーズ確率と情報の科学)

 

 


第6章 モデルの評価とハイパーパラメータのチューニングのベストプラクティス

バイアスとバリアンスのバランスが最も良いのは、k = 10について

クラスのバランスが悪い時、バリアンスとバイアスのバランスが改善される

http://ai.stanford.edu/~ronnyk/accEst.pdf

dl.acm.org

汎化性能のパリアンスが交差検証でどのように評価されるのか

sebastianraschka.com

sebastianraschka.com

sebastianraschka.com

 

http://www.jmlr.org/papers/volume6/markatou05a/markatou05a.pdf
dl.acm.org

dl.acm.org

ブーストラップ検証

https://www.researchgate.net/publication/243766494_Improvements_on_Cross-Validation_The_632_Bootstrap_Method

https://pdfs.semanticscholar.org/8e30/f02d667163ff52223efd57c0b48a0a9a7873.pdf

グリツドサーチとランダムサーチの違い

dl.acm.org

http://www.jmlr.org/papers/volume13/bergstra12a/bergstra12a.pdf

誤差推定におけるバイアス

www.ncbi.nlm.nih.gov

AUCと正解率がほぼ一致すること

www.sciencedirect.com

レーニングサンプルを人工的に生成するアルゴリズムSMOTE

rikunert.com

https://arxiv.org/pdf/1106.1813

 

第7章 アンサンブル学習 異なるモデルの組み合わせ

スタッキングについて

 

データマイニングの基礎 (IT Text)

データマイニングの基礎 (IT Text)

 
統計的学習の基礎 ―データマイニング・推論・予測―

統計的学習の基礎 ―データマイニング・推論・予測―

  • 作者: Trevor Hastie,Robert Tibshirani,Jerome Friedman,杉山将,井手剛,神嶌敏弘,栗田多喜夫,前田英作,井尻善久,岩田具治,金森敬文,兼村厚範,烏山昌幸,河原吉伸,木村昭悟,小西嘉典,酒井智弥,鈴木大慈,竹内一郎,玉木徹,出口大輔,冨岡亮太,波部斉,前田新一,持橋大地,山田誠
  • 出版社/メーカー: 共立出版
  • 発売日: 2014/06/25
  • メディア: 単行本
  • この商品を含むブログ (6件) を見る
 

 バギングについて

link.springer.com

 アダブースト

link.springer.com

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.51.6252&rep=rep1&type=pdf

 ブースティングでは、バギングと比べてバイアスとバリアンスが低くなることがある

https://www.stat.berkeley.edu/users/breiman/arcall96.pdf

 

http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.1.9074

 

 計算コストと予測性能のトレードオフ Netflixアルゴリズムの大会で優勝

https://www.netflixprize.com/assets/GrandPrize2009_BPC_BigChaos.pdf

 上のが複雑すぎて使えなかった声明文

medium.com

第10章 回帰分析 ー 連続値をとる目的変数の予測

正規性の必要性について

 

Introduction to Linear Regression Analysis, 6th edition Solutions Manual Cloth

Introduction to Linear Regression Analysis, 6th edition Solutions Manual Cloth

 

 正規方程式の導出

自然科学の統計学 (基礎統計学)

自然科学の統計学 (基礎統計学)

 

 外れ値検出の方法

不完全データの統計解析 (統計学大系シリーズ)

不完全データの統計解析 (統計学大系シリーズ)

 
Outlier Analysis

Outlier Analysis

 
欠測データの統計科学――医学と社会科学への応用 (調査観察データ解析の実際 第1巻)

欠測データの統計科学――医学と社会科学への応用 (調査観察データ解析の実際 第1巻)

 
欠測データの統計解析 (統計解析スタンダード)

欠測データの統計解析 (統計解析スタンダード)

 

 

ロバスト回帰

頑健回帰推定 (統計ライブラリー)

頑健回帰推定 (統計ライブラリー)

 

 

 正常値の閾値設定のアルゴリズム

link.springer.com

決定計数について

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)