kaggleぐるぐる(1) 入門の入門
せっかく機械学習の勉強をしたので、実際にデータ分析してみたい! ということで見つけたのがkaggleというサイト。やることは「与えられた問題とデータセットについて自分でコードを書いて分析して、正解率を上げよう!」 ……うん、シンプルです。
kaggleはこちら → https://www.kaggle.com/
kaggleはすべて英語
英語の勉強にもいいかなーと思いつつ、それでも導入は日本語の方が安心だろうと思いいくつかサイトで調べてアカウントを作成。SNSでアカウント作った事がないんですけれど、今後はFacebookか何かに紐づけた方がいいのかな。メルアド変更も1か所で済みそうですし。
最初はタイタニックの生存者問題
チュートリアルとしてお勧めされるのが、表題のタイタニックの生存者を当てなさい、というもの。ここでデータサイエンスの基本的なアレコレを一通り網羅できるようなので、トライです。
scikit-learnyanumpyやpandasなどのライブラリの使い方も、先輩たちのコードを参考にしていけば身につくはず!
しばらくは写経しつつ、気になった箇所はprintして確認て覚えていく感じになりそうです。pandasでデータをくっつけたり落としたりで弄っているだけでも面白いんですけど!!
実際に手を動かしてみた
※2017/11/28追記分です。
上で紹介したTitanic問題でめでたく上位10%に入りました。といってもそんなに難しいことはしていないです。その時の記事はこちら。
データの視覚化も大事です。kaggle主催の5-days-challengeに参加してみました。こんな感じです。
開発環境も忘れずにね
ところで、データサイエンスに使うライブラリ類がちゃんと揃っていなかったので……python入れなおしました。今度はAnacondaなので大丈夫のはず。
Python の開発環境 – Python でデータサイエンス
Anaconda を利用した Python のインストール (Windows) – Python でデータサイエンス
PyCharm(IDE、gitなんか使うので企業での開発向け)か、
Jupyter Notebook(動かしてデータがすぐ見られる個人向け)が
良いそうです。わたしは仕事でPyCharmを使っているのでしばらくそっちかなと思いつつ、Jupyterも触ってみようそうしよう。
※2017/11/28追記:すっかりJupyter一色になりました。かなりお勧めです。
色々手出し過ぎじゃない?
最近色々食い散らかしていますけれど、まだまだ続きます。
一通り触ってみて一番面白いもので仕事していけたらいいなーと思います。ハイ。