kaggleぐるぐる(3) 現在0.78947。titanicの研究
現在0.78947
10/14現在、スコアは0.78947。
2828位/8603チーム参加まで来ました。上位33%といったところ。
↓コードはこんな感じ。
github.com
ここからさらに上を目指したい!
先輩の手法に学ぼう
ものすごく参考になるkernelがあったので、コードと解説を見ながら自分でも手を動かしてみました。
Titanic Top 4% with ensemble modeling | Kaggle
視覚化もばっちりしていて大変見やすいです!
- データの読み取り方
- 視覚化のやり方
- 適正な分割の仕方異常値の除去
- 欠損値の補完
- アンサンブルでのモデリング
などなどばっちり押さえてくれています。
こういうコードをさらっと書けるようになりたいな。
kaggleをやっていて気づいたこと
成績が思ったより低い問題
手元のテストデータで精度99%が出るのに、提出すると77%だったりして、なんだろうという疑問がついに解決。
単に、kaggle側では未知のデータをもとにロジックの判定をしているからでした。つまり、
- 既知のデータ(ローカル):精度99%
- 未知のデータ(kaggle):精度77%
そりゃそうだよね……。つまり、見事なまでに過学習しちゃってたということです。納得。
kaggleのslackがあるってよ
上位入賞のデータ公開や、雑談や、初心者向けの質問などkaggleに関して幅広く話せます。
早速お世話になってます! すごく刺激になるなぁ。