GCIデータサイエンス講座 Chapter1 メモ

python知っていれば後半はスキップ可な感じ

本書の概要とPythonの基礎

  • データサイエンティストの仕事を例にとってデータ分析を考える

  • データサイエンティスト

ビジネスの課題に対して、統計や機械学習(数学)とプログラミング(IT)スキルを使って、解決する人と定義

  • データ分析の流れ

ビジネスデータを分析するプロジェクトでは、そのビジネス理解、データ理解、データ加工、処理、モデリング、検証、運用という流れで進めていくのが一般的

データ分析の現場で大事になるのは、ビジネス理解やその目的を明確化し、PDCAサイクルの流れ(データ分析のプロセス)を創ることです。

  • 講座構成

    • 1 - 4章 データ分析の基礎知識

      python, jupyter notebook

      科学計算・統計ライブラリ numpy, scipy, pandas matplotlib

    • 5-7章 エンジニア力をつける

      numpy, scipy, pandasを使ったテクニック

      データの可視化(matplotlib)

      Pythonのデータ分析前の処理や加工の基礎を身に付け、総合問題でそれらの手法を活用

    • 8-10章

      機械学習 教師あり/教師なし/モデリング・チューニング

    • 11,12章

      python高速化、深層学習入門, spark

様々なデータに対して(データ分析を?)実装できるために、自分で考えながら手を動かして学ぶことが大事

pyhtonの基礎

  • Jupyter Notebookの使い方

    作業効率化のためにNotebookのショートカットを使いこなそう

    Escで編集状態を抜けて b でセル追加等

  • 予約語

 __import__('keyword').kwlist

  • 組み込みオブジェクト

    dir(__builtins__)

  • リスト型、辞書型

  • 条件分岐・ループ

  • 関数  

    • 練習問題 文字列を1文字ずつ表示、1から50までの和
  • クラスとインスタンス

  • 総合問題