データサイエンスティスト養成読本 まとめ
今回は以下のブログをみて総論として読んでおいた方がいいと書かれていたデータサイエンティストへの道標を読んでみた。後半の章はかなり初歩的な話だったので、はしょったが気になった本だけメモ!
Amazonはこちら↓
データサイエンティスト養成読本 登竜門編 (Software Design plus)
- 作者: 高橋淳一,野村嗣,西村隆宏,水上ひろき,林田賢二,森清貴,越水直人,露崎博之,早川敦士,牧允皓,黒柳敬一
- 出版社/メーカー: 技術評論社
- 発売日: 2017/03/25
- メディア: 大型本
- この商品を含むブログ (1件) を見る
- 第1章 データサイエンティストへの道標
- 第2章 データ分析環境構築ガイド
- 第3章 はじめてのシェル
- 第4章 データベース入門の入門
- 第5章 RStudio/Jupyter 最速攻略
- 第6章 データ前処理の基礎知識
- 第9章 コーディング前に知りたい統計知識
第1章 データサイエンティストへの道標
第1章は本当に過去、現状と未来どうなうかとどうやってデータサイエンティストになるかのまとめが書かれていた。
1-1 データサイエンスの登場
過去のデータを初めて採用し、僕も映画を見たがマネーボールの話から始まり、2012年にハーバードビジネスレビューが最もセクシーな職業になるという現状と日本では将来25万人もの不足が出エルらしいということが書かれていた。
1-2 データサイエンティスト業界最前線
周りでよく使われているデータの使い方の紹介
使い方には二つあり、売り上げの上昇または、コストの削減で、それぞれ売り上げの上昇は、Webや小売業などで、コスト削減の面では、製造、金融、農業、物流などが紹介されていた。
1-3 データサイエンティストになるために
3つの力
- ビジネス力
- データサイエンス力
- データエンジニアリング力
とデータサイエンス協会が言っているらしい、ビジネス力とは、課題理解と解決であるので、僕のなりたい生物とのかかわりでは、生物のモデルに関する理解などかな
第2章 データ分析環境構築ガイド
2-1 データ分析環境とデータ分析者
データ分析には3つの段階がありそれぞれに適した人がいる
段階
- データ収集
- データ保存
- データ分析
人
- データ基盤エンジニア・・1.2のデータ収集、保存などを円滑に行えるようにする
- マーケター ・・分析を行いビジネスに近いことを行う
- データサイエンティスト・高度な分析と開発
2-2 データ分析おとプログラミング言語
データ分析のためのプログラミング言語比較
PythonとRのダウンロードの仕方も載っている。
- R ・・データ分析に特化していて、そのためのライブラリも豊富
- Python・・汎用プログラミング言語であり、ライブラリ・資料が豊富
- Java ・・凡庸プログラミング言語。静的型言語。
- Scala ・・関数型とおブジェクト型の混合で少し難易度が高い。
- Julia ・・科学計算用に開発された言語。早い。
2-3 データを取集するツール
2-4 データを保存するツール
データ保存のツールは、データを使用したり検索したりするために使用する。
データの保存されている形
- 構造化されている
- 構造が変化する可能性がある
- 大きいデータ
データの保存の仕方による使用ツール
- 構造化されている
ツール・・RDBMS ex)SQLite, PostagreSQL, MySQL
理由・・構造化されているものは、木構造などのデータの中に関連がある物である。 - 構造が変化する可能性がある
ツール・・NoSQL(RDBMS以外のデータベース)ex)MongoDB(Jsonデータ), InfluxDB(時系列に特化)
理由・・表形式などの構造で表せないデータベース。時系列などは、RDBMSはパフォーマンスが劣化してしまう。 - 大きいデータ(数テラバイト)
保存システム
1.HDFS・・MapReduceという方法で、一行に対する処理を一台で行うのと、データ複数行に行う処理を分ける。
2.DWH・・複数のサーバに分けてデータを処理保存
2-5 データを分析・可視化するツール
データ分析の方法
第3章 はじめてのシェル
基本的な操作のみだったので、シェルはここで読まなくていいかと思い飛ばした。
第4章 データベース入門の入門
データベースも少し入門してもしょうがないのでやめた。
第5章 RStudio/Jupyter 最速攻略
Jupyter はもともと使用していたので、Rstadioも使いそうなのでダウンロードして使ってみた。とにかく従っていくだけ。
Rのダウンロード↓
The Comprehensive R Archive Network
Rstdioのダウンロード↓
第6章 データ前処理の基礎知識
6章以降は、かじっただけではしょうがないと思ったのでやめた。乗っていた参考文献だけ気になったのをメモ程度に載せておく。
参考文献
第9章 コーディング前に知りたい統計知識
参考文献
いつか読むかもなー
サバイバルデータの解析―生存時間とイベントヒストリデータ (バイオ統計シリーズ)
- 作者: 赤澤宏平,柳川尭
- 出版社/メーカー: 近代科学社
- 発売日: 2010/07/25
- メディア: 単行本
- この商品を含むブログを見る
数学が戦略を決めるみたいでこういうのも読みたい