PyCharmで始めるインタラクティブな機械学習
Kaggleのチュートリアルをやってみたくなったので、PyChramにJupyter(旧 IPython Notebook)をインストールしてデータサイエンスの環境を構築しました。
ちょっとググればわかる程度の内容な上に、Jupyter(旧 IPython Notebook)をそのまま使えばええんちゃうのとか正論が頭をよぎったりもしましたが、以前から使ってみたかったPyCharmを使う絶好の機会なので、張り切って無駄足を踏むことにしました。
目次
機械学習で使うPythonのパッケージをインストール
こちらの記事を参考に、Pythonで機械学習をする際に使うと便利なパッケージの数々をPyCharmの環境設定からインストール*1しました。
Jupyter(旧IPython Notebook)をインストール
Preferences > Project InterpreterでPackageの一覧の下にある+
ボタン*2を押して表示されるAvailable Packages
からJupyter
を選択してインストール
科学技術計算パッケージをインストール
Jupyter
と同様にして、以下の科学技術計算パッケージをインストールします。
- numpy … 配列の計算を効率的*3にできるライブラリで他の科学技術計算パッケージの土台
- scipy … 科学技術計算でよく使うモジュールを使いやすくまとめたライブラリ
- pandas … データ解析のためのライブラリ
- scikit-learn … 機械学習やデータマイニングのライブラリ
- matplotlib … グラフを描画するためのライブラリ
テキストやCSVのデータをpandas
で解析して、numpy
やscipy
やscikit-learn
で計算してみて、計算結果や解析結果をmatplotlib
でグラフ化して特徴を可視化するのが、一般的な手法のようです。
PyCharmでインタラクティブな機械学習
適当に作業ディレクトリを用意してプロジェクトを作成し、Jupyter Notebook
で使用するipynb
ファイルを作成します。
作業ディレクトリにプロジェクトを作成
Create New Project
で作業ディレクトリとPythonのバージョンを選択しプロジェクトを作成
プロジェクトにJupyter Notebookを作成
New
でJupyter Notebook
を選択しipynb
ファイルを作成
頑張ってデータサイエンス
作業の準備が整ったらデータの分析や解析を頑張ります(๑•̀ㅂ•́)و✧
PyCharmを使う際の注意点
PyCharmというかIDEにありがちな問題で無視してもいいみたいなんですが、インストール済みのライブラリに警告が表示されて、This inspection detects names that should resolve but don't
とか言われる場合があるようです。