データサイエンスティスト養成読本 まとめ

 今回は以下のブログをみて総論として読んでおいた方がいいと書かれていたデータサイエンティストへの道標を読んでみた。後半の章はかなり初歩的な話だったので、はしょったが気になった本だけメモ!

 

 

tjo.hatenablog.com

 Amazonはこちら↓

データサイエンティスト養成読本 登竜門編 (Software Design plus)

データサイエンティスト養成読本 登竜門編 (Software Design plus)

 

 

第1章 データサイエンティストへの道標

第1章は本当に過去、現状と未来どうなうかとどうやってデータサイエンティストになるかのまとめが書かれていた。

1-1 データサイエンスの登場

過去のデータを初めて採用し、僕も映画を見たがマネーボールの話から始まり、2012年にハーバードビジネスレビューが最もセクシーな職業になるという現状と日本では将来25万人もの不足が出エルらしいということが書かれていた。

1-2 データサイエンティスト業界最前線

周りでよく使われているデータの使い方の紹介

使い方には二つあり、売り上げの上昇または、コストの削減で、それぞれ売り上げの上昇は、Webや小売業などで、コスト削減の面では、製造、金融、農業、物流などが紹介されていた。

1-3  データサイエンティストになるために

3つの力
  1. ビジネス力
  2. データサイエンス力
  3. データエンジニアリング力

とデータサイエンス協会が言っているらしい、ビジネス力とは、課題理解と解決であるので、僕のなりたい生物とのかかわりでは、生物のモデルに関する理解などかな

 

第2章 データ分析環境構築ガイド

2-1 データ分析環境とデータ分析者

データ分析には3つの段階がありそれぞれに適した人がいる

段階
  1. データ収集
  2. データ保存
  3. データ分析
  1. データ基盤エンジニア・・1.2のデータ収集、保存などを円滑に行えるようにする
  2. マーケター     ・・分析を行いビジネスに近いことを行う
  3. データサイエンティスト・高度な分析と開発

2-2 データ分析おとプログラミング言語

データ分析のためのプログラミング言語比較

PythonとRのダウンロードの仕方も載っている。

  1. R         ・・データ分析に特化していて、そのためのライブラリも豊富
  2. Python・・汎用プログラミング言語であり、ライブラリ・資料が豊富
  3. Java ・・凡庸プログラミング言語。静的型言語。
  4. Scala  ・・関数型とおブジェクト型の混合で少し難易度が高い。
  5. Julia ・・科学計算用に開発された言語。早い。

2-3 データを取集するツール

  1. Fluentd・・Rubyで書かれている。リアルタイム性が求める。
  2. Embulk・・Rubyで書かれている。リアルタイム性が求められない。

2-4 データを保存するツール

データ保存のツールは、データを使用したり検索したりするために使用する。

データの保存されている形
  1. 構造化されている
  2. 構造が変化する可能性がある
  3. 大きいデータ
データの保存の仕方による使用ツール
  • 構造化されている
    ツール・・RDBMS ex)SQLite, PostagreSQL, MySQL
    理由・・構造化されているものは、木構造などのデータの中に関連がある物である。
  • 構造が変化する可能性がある
    ツール・・NoSQL(RDBMS以外のデータベース)ex)MongoDB(Jsonデータ), InfluxDB(時系列に特化)
    理由・・表形式などの構造で表せないデータベース。時系列などは、RDBMSはパフォーマンスが劣化してしまう。
  • 大きいデータ(数テラバイト) 
    保存システム
    1.HDFS・・MapReduceという方法で、一行に対する処理を一台で行うのと、データ複数行に行う処理を分ける。
    2.DWH・・複数のサーバに分けてデータを処理保存

2-5 データを分析・可視化するツール

データ分析の方法

第3章 はじめてのシェル

基本的な操作のみだったので、シェルはここで読まなくていいかと思い飛ばした。


第4章 データベース入門の入門


データベースも少し入門してもしょうがないのでやめた。


第5章 RStudio/Jupyter 最速攻略

Jupyter はもともと使用していたので、Rstadioも使いそうなのでダウンロードして使ってみた。とにかく従っていくだけ。

Rのダウンロード↓

The Comprehensive R Archive Network

Rstdioのダウンロード↓

Download RStudio - RStudio


第6章 データ前処理の基礎知識

6章以降は、かじっただけではしょうがないと思ったのでやめた。乗っていた参考文献だけ気になったのをメモ程度に載せておく。

参考文献

www.amazon.co.jp


第9章 コーディング前に知りたい統計知識

参考文献

いつか読むかもなー

数学が戦略を決めるみたいでこういうのも読みたい

シグナル&ノイズ 天才データアナリストの「予測学」

シグナル&ノイズ 天才データアナリストの「予測学」