周回遅れでIT業界デビューしたエンジニアのブログ

就職氷河期にモロにぶち当たり、人生で混迷を極めた末にIT業界に安寧を見出そうとしているアラフォーのお勉強日記です。

kaggleぐるぐる(4) 0.80382になった!次元削減は大事

やりましたー!

f:id:sionff:20171017071054p:plain

ランキングに輝く0.80382の文字。
0.80超えの目標達成できてうれしい!
上位13%だそうです。

※2017/11/28追記:なんとTop10%入りしました!参加者が増えた模様。

特徴量作りでやったこと

  • Cabinの頭文字で判別してみた → あんまり効果が無かった
  • CibilとParchを合わせて家族数としてみた → そこそこ効果があったけど微々たるもの
  • Nameから称号を判別してまとめてみた → 名前なんか要らなかったんだ!
  • Fareはlogを取って正規化っぽくしてみた → 最後のダメ押しになった
  • Ageの欠損値は結局平均にした → 欠損してるのが死亡の多い3等船室ばっかりなのでとりあえずOK
  • Embarkedはちゃんと0or1で分けた → 意外と重要。Sの生存率が高い

途中は26次元とかになって多すぎてかえってスコアが下がったりしてたので、あまり特徴量をつくりすぎず、適度に次元削減する方が効果的なのかなと感じました。

あと、最後は細かく調整してしつこくsubmitするのが大事。これ本当。

コードはkaggleに載せました

gitの調子が悪かったのでkaggleに上げました

前回の分のコメントを日本語で書いてたのをそのまま上げたら、海外の人から「何言ってるか分からなくて悲しい」ってつっこまれたので英語に直してあげました。親切!

次なにする?

目標達成できたので、コンペに挑戦してみてもいいかなと思いました。

ある程度できるようになってから参加、じゃいつまでたっても出来ないし、実戦こそが上達の早道かも。

kaggleバンザイ!