kaggleぐるぐる(3)　現在0.78947。titanicの研究 - 周回遅れでIT業界デビューしたプロジェクトマネージャーのブログ

f:id:sionff:20171014173135p:plain

10/14現在、スコアは0.78947。
2828位／8603チーム参加まで来ました。上位33％といったところ。

↓コードはこんな感じ。
github.com

ここからさらに上を目指したい！

ものすごく参考になるkernelがあったので、コードと解説を見ながら自分でも手を動かしてみました。

視覚化もばっちりしていて大変見やすいです！

f:id:sionff:20171014101902p:plain

などなどばっちり押さえてくれています。
こういうコードをさらっと書けるようになりたいな。

手元のテストデータで精度99％が出るのに、提出すると77％だったりして、なんだろうという疑問がついに解決。

単に、kaggle側では未知のデータをもとにロジックの判定をしているからでした。つまり、

そりゃそうだよね……。つまり、見事なまでに過学習しちゃってたということです。納得。

学習（fit）させるのはほんの数行で終わってしまうので、事前にどれだけデータセットを理解して前処理できるかだなーと感じました。

あとは掛ける時間とのトレードオフ。ものすごい手間かけたのに、30分で書いたコードとスコアが一緒じゃ目も当てられないし。

上位入賞のデータ公開や、雑談や、初心者向けの質問などkaggleに関して幅広く話せます。
早速お世話になってます！　すごく刺激になるなぁ。