kaggleぐるぐる(1)　入門の入門 - 周回遅れでIT業界デビューしたプロジェクトマネージャーのブログ

f:id:sionff:20180122110451p:plain

せっかく機械学習の勉強をしたので、実際にデータ分析してみたい！　ということで見つけたのがkaggleというサイト。やることは「与えられた問題とデータセットについて自分でコードを書いて分析して、正解率を上げよう！」　……うん、シンプルです。

kaggleはこちら　→　https://www.kaggle.com/

英語の勉強にもいいかなーと思いつつ、それでも導入は日本語の方が安心だろうと思いいくつかサイトで調べてアカウントを作成。SNSでアカウント作った事がないんですけれど、今後はFacebookか何かに紐づけた方がいいのかな。メルアド変更も1か所で済みそうですし。

チュートリアルとしてお勧めされるのが、表題のタイタニックの生存者を当てなさい、というもの。ここでデータサイエンスの基本的なアレコレを一通り網羅できるようなので、トライです。

scikit-learnyanumpyやpandasなどのライブラリの使い方も、先輩たちのコードを参考にしていけば身につくはず！

しばらくは写経しつつ、気になった箇所はprintして確認て覚えていく感じになりそうです。pandasでデータをくっつけたり落としたりで弄っているだけでも面白いんですけど！！

※2017/11/28追記分です。

上で紹介したTitanic問題でめでたく上位10%に入りました。といってもそんなに難しいことはしていないです。その時の記事はこちら。

データの視覚化も大事です。kaggle主催の5-days-challengeに参加してみました。こんな感じです。

ところで、データサイエンスに使うライブラリ類がちゃんと揃っていなかったので……python入れなおしました。今度はAnacondaなので大丈夫のはず。

PyCharm（IDE、gitなんか使うので企業での開発向け）か、

Jupyter Notebook（動かしてデータがすぐ見られる個人向け）が

良いそうです。わたしは仕事でPyCharmを使っているのでしばらくそっちかなと思いつつ、Jupyterも触ってみようそうしよう。

※2017/11/28追記：すっかりJupyter一色になりました。かなりお勧めです。

最近色々食い散らかしていますけれど、まだまだ続きます。

一通り触ってみて一番面白いもので仕事していけたらいいなーと思います。ハイ。