kaggleぐるぐる 5-Day Data Challenge - Day 5
5日間のチャレンジの最後の日です。 1つの最後のタスク!
今日は何をしていますか?
異なるグループ間の観測数の違いはランダムな変化の結果だけですか?あるいは、それは2つのグループの根本的な違いを反映していますか?
例えば、赤と緑のリンゴがあり、そのうちいくつかは傷ついているものとそうでないものがあります。ある色のリンゴは、打撲傷を受ける可能性がより高いですか?リンゴの色がカイ二乗検定(Χ^ 2と書かれている)を使って傷つく可能性が高いかどうかを調べることができます。
どのようなデータが必要ですか?
この課題に対して、少なくとも2つのカテゴリ変数を含むデータセットが必要になります。 (昨日のように。)
挑戦の指示
1. この時点で、あなたはすでにこのステップでプロです。データセットを見つけ、カーネルを起動し、ライブラリにロードし、データフレームにデータを読み込む必要があります。ここに少なくとも1つのカテゴリ変数を持つデータセットのリストがあります。ノートブックに「5日間のデータチャレンジ:5日目」のような有益なタイトルを付けることを忘れないでください。私はお勧めしたい:
- Python:scipy.stats(コマンド:import scipy.stats)とpandas(コマンド:pdfとしてpandasをインポートする)
- R:tidyverse(コマンド:library(tidyverse))
2. どちらもカテゴリ変数を持つ2つの列を選択します。 (これらはおそらく数字ではなく文字列、文字またはオブジェクトになります)。
3. カイ2乗を計算する。試してください:
- Python:scipy.statsのchisquare()関数
- R:chisq.test()を試してください。これはRに組み込まれています
4. 余分なクレジット:データセットを視覚化します。
5. オプション:あなたの分析を友人と共有したり、助けを求めたりするには、他の人が見ることができるように公開する必要があります。
- 青い「公開」テキスト(「フォークノート」ボタンのすぐ上)をクリックして、表示を「公開」に変更します。