周回遅れでIT業界デビューしたエンジニアのブログ

就職氷河期にモロにぶち当たり、人生で混迷を極めた末にIT業界に安寧を見出そうとしているアラフォーのお勉強日記です。

kaggleぐるぐる 5-Day Data Challenge - Day 5

f:id:sionff:20171025063524p:plain

5日間のチャレンジの最後の日です。 1つの最後のタスク!

f:id:sionff:20171028042518p:plain

今日は何をしていますか?

異なるグループ間の観測数の違いはランダムな変化の結果だけですか?あるいは、それは2つのグループの根本的な違いを反映していますか?

例えば、赤と緑のリンゴがあり、そのうちいくつかは傷ついているものとそうでないものがあります。ある色のリンゴは、打撲傷を受ける可能性がより高いですか?リンゴの色がカイ二乗検定(Χ^ 2と書かれている)を使って傷つく可能性が高いかどうかを調べることができます。

どのようなデータが必要ですか?

この課題に対して、少なくとも2つのカテゴリ変数を含むデータセットが必要になります。 (昨日のように。)

挑戦の指示

1. この時点で、あなたはすでにこのステップでプロです。データセットを見つけ、カーネルを起動し、ライブラリにロードし、データフレームにデータを読み込む必要があります。ここに少なくとも1つのカテゴリ変数を持つデータセットのリストがあります。ノートブックに「5日間のデータチャレンジ:5日目」のような有益なタイトルを付けることを忘れないでください。私はお勧めしたい:

  • Python:scipy.stats(コマンド:import scipy.stats)とpandas(コマンド:pdfとしてpandasをインポートする)
  • R:tidyverse(コマンド:library(tidyverse))

2. どちらもカテゴリ変数を持つ2つの列を選択します。 (これらはおそらく数字ではなく文字列、文字またはオブジェクトになります)。

3. カイ2乗を計算する。試してください:

  • Python:scipy.statsのchisquare()関数
  • R:chisq.test()を試してください。これはRに組み込まれています

4. 余分なクレジット:データセットを視覚化します。

5. オプション:あなたの分析を友人と共有したり、助けを求めたりするには、他の人が見ることができるように公開する必要があります。

  • ビッグブルーの「公開」ボタンを押して、カーネルを公開してください。 (これには1秒かかる場合があります)。
  • 青い「公開」テキスト(「フォークノート」ボタンのすぐ上)をクリックして、表示を「公開」に変更します。

以上です!

あなたはすべての挑戦を通してそれを作った。先週、私たちは:

  • 2つのグループ間の数値測定の違いが確実に異なるかどうかを確認するためにt検定を使用
  • 棒グラフを使用してカテゴリ変数をプロット
  • カイ2乗検定を使用して、2つのグループ間の観測数に信頼できる差があるかどうかを調べる

今何?

これで基本的なツールが完成しましたので、より多くのデータセットを調べる準備が整いました。ここで新しいデータセットをチェックアウトするか、自分でアップロードすることができます。

私に参加してくれてありがとう、そしてあなたが楽しくて多くのことを学んだことを願っています!私は将来の挑戦をより良くすることができるように、明日の調査のためにフィードバックを送る予定です。

レイチェル