Mar 1, 2015

Tutorial & Hackathon #1

本イベントは終了しました。たくさんの方にご参加いただきありがとうございました。

開催概要

  • 2015年03月07日(土)
  • 11時00分 〜 19時45分

テーマと使用するデータ

テーマ

タイタニックの乗客データを使った生存者の推定モデルの生成

内容

タイタニックの乗客データを見ると、生存者は男性より女性の方が多いといった傾向が見られます。今回は乗客の名前、年齢、性別、乗船クラスなどの情報から、機械学習を使って生存者を推定するモデルを作成して頂きます。機械学習のコンペティションサイト「Kaggle」にデータと簡単なチュートリアルがありますので、事前に目を通しておくことをお勧めします。

※ データのダウンロードには、Kaggleのアカウントが必要です。

使用予定パッケージ

  • NumPy
  • SciPy
  • Pandas
  • scikit-learn
  • matplotlib

PythonのバージョンはPython3.4です。Python2.7系になれている方は2.7系をご利用頂いても構いませんが、解説の対象となるのは3.4系の文法です。 

パッケージ導入方法

  • Anacondaを導入する(初心者向け)
  • 各パッケージをpipインストールする

上記のいずれかで事前準備をお願い致します。

Anacondaを導入する(初心者向け)

Anacondaは、データ分析に利用できるPythonパッケージをまとめて配布しているディストリビューションです。Win / Mac / Linux いずれにも導入可能です。Anacondaダウンロードページにアクセスして、インストーラーのダウンロードとインストールを行って下さい。。

Anacondaダウンロードページにデフォルトで表示されているのはPython2.7系のインストーラーのため、「I WANT PYTHON3.4」を選択して、Python3.4系のインストーラーを入手できるよう切り替えて下さい。

各パッケージをpipインストールする

Python3.4の導入後、次のコマンドで各パッケージをインストールしてください。

pyvenv pydata-t1
source pydata-t1/bin/activate
pip install numpy
pip install scipy
pip install pandas
pip install scikit-learn
pip install ipython[notebook]
pip install matplotlib

使用テキスト

IPython Notebookでテキストを公開します。

 

© 2015 PyData.Tokyo
Power by Kotti