あかんわ

覚えたことをブログに書くようにすれば多少はやる気が出るかと思ったんです

PyCharmで始めるインタラクティブな機械学習

Kaggleのチュートリアルをやってみたくなったので、PyChramJupyter(旧 IPython Notebook)をインストールしてデータサイエンスの環境を構築しました。

ちょっとググればわかる程度の内容な上に、Jupyter(旧 IPython Notebook)をそのまま使えばええんちゃうのとか正論が頭をよぎったりもしましたが、以前から使ってみたかったPyCharmを使う絶好の機会なので、張り切って無駄足を踏むことにしました。

目次

機械学習で使うPythonのパッケージをインストール

こちらの記事を参考に、Python機械学習をする際に使うと便利なパッケージの数々をPyCharmの環境設定からインストール*1しました。

Jupyter(旧IPython Notebook)をインストール

Preferences > Project InterpreterでPackageの一覧の下にある+ボタン*2を押して表示されるAvailable PackagesからJupyterを選択してインストール

科学技術計算パッケージをインストール

Jupyterと同様にして、以下の科学技術計算パッケージをインストールします。

  • numpy … 配列の計算を効率的*3にできるライブラリで他の科学技術計算パッケージの土台
  • scipy … 科学技術計算でよく使うモジュールを使いやすくまとめたライブラリ
  • pandas … データ解析のためのライブラリ
  • scikit-learn … 機械学習データマイニングのライブラリ
  • matplotlib … グラフを描画するためのライブラリ

テキストやCSVのデータをpandasで解析して、numpyscipyscikit-learnで計算してみて、計算結果や解析結果をmatplotlibでグラフ化して特徴を可視化するのが、一般的な手法のようです。

PyCharmでインタラクティブ機械学習

適当に作業ディレクトリを用意してプロジェクトを作成し、Jupyter Notebookで使用するipynbファイルを作成します。

作業ディレクトリにプロジェクトを作成

Create New Projectで作業ディレクトリとPythonのバージョンを選択しプロジェクトを作成

プロジェクトにJupyter Notebookを作成

NewJupyter Notebookを選択しipynbファイルを作成

頑張ってデータサイエンス

作業の準備が整ったらデータの分析や解析を頑張ります(๑•̀ㅂ•́)و✧

PyCharmを使う際の注意点

PyCharmというかIDEにありがちな問題で無視してもいいみたいなんですが、インストール済みのライブラリに警告が表示されて、This inspection detects names that should resolve but don'tとか言われる場合があるようです。

開発環境

  • OSX 10.11.4 El Capitan
    - IDE: PyCharm Community Edition 2016.1
    - パッケージマネージャ: Homebrew
  • Python 3.5.1
    - バージョンマネージャ: pyenv

*1:場合によってはPyCharmの再起動が必要なようです

*2:カーソルを合わせるとInstallの文字が表示されます

*3:速くて楽