周回遅れでIT業界デビューしたエンジニアのブログ

就職氷河期にモロにぶち当たり、人生で混迷を極めた末にIT業界に安寧を見出そうとしているアラフォーのお勉強日記です。

kaggleぐるぐる 5-Day Data Challenge - Day 3

3日目です。

今日はt検定のお話です。

にしてもgoogle先生……中途半端です、って。(面白いからそのまま)
半分まで来ました!ですよね。あはは。

f:id:sionff:20171025063524p:plain

信じられますか?私たちはすでに中途半端です!

今日は何をしていますか?

今日、私たちは質問に答えるつもりです:2つのグループ間で数値変数が違いますか?この質問に答えるために、t検定を使用します。

t検定は、2つのグループ間の数値的尺度の差が信頼できるかどうかを推定するのに役立つ統計的検定です。 2つのグループをお互いに比較しているので、独立したサンプルのt検定と呼ばれる特別なt検定を使用します。 (1つのサンプルのみでt検定を行うことはできますが、サンプリングしたグループの平均と標準偏差がどのようなものかを知る必要があります。)2つ以上のグループを比較する場合は、 「分散分析」または「ANOVA」と呼ばれるt検定の拡張を使用することができます。

t検定はp値を返す。 P値が非常に低い(一般に0.01未満)場合、これは、偶然、最初のサンプルと同じディストリビューションから2番目のサンプルを引き出した可能性は低いという証拠です。 t検定の詳細については、無料でダウンロードできる第5章OpenIntro Statisticsの第5章を読むことをお勧めします。

どのようなデータが必要ですか?

今日の課題では、2つの異なるグループについて測定された数値変数が少なくとも1つあるデータセットが必要になります。 (データセットに2つ以上のグループがある場合は、常に2つしか選択できません)。今日の課題に対してうまくいくデータセットがいくつかあります。


1. 穀類の栄養データセット。 2種類の穀類(暑いまたは寒い)に同じ量の砂糖またはナトリウムがあるかどうかを見ることができます。

2. 博物館、水族館、動物園のデータセット。動物園の収入が他のすべてのタイプの博物館を組み合わせたものと異なるかどうかを見ることができます。このデータセットではクリーニングが必要です。

3. 女性の靴価格データセット。ピンクの靴は他の靴の色よりも高価ですか?このデータセットではクリーニングが必要です。

挑戦の指示

1. あなたは今ドリルを知っています! :)データセットを検索し、カーネルを起動し、ライブラリで読み込み、データフレームにデータを読み込みます。

  • Python:scipy.statsからttest_ind()関数をインポートする(コマンド:scipy.statsからimport ttest_ind)
  • R:何かをインポートする必要はありません。 :)(Rは統計のためのプログラミング言語なので、統計的方法はすでに組み込まれています。)

2. どの列に数値変数があり、どの列にグループラベルがあるのか​​を把握する。

3. t検定を行う。私は使用することをお勧めします:

  • Python:scipy.statsのttest_ind()関数。注:数値変数の標準偏差が2つのグループ間で同じでない限り、この関数で引数 "equal_var = False"を使用することをお勧めします。これはnumpyのstd()関数を使って計算できます。
  • R:t.test関数.Rに組み込まれています。

4. 余分なクレジット:データの2つのヒストグラムをプロットします.1つはt検定に含まれたグループごとです。

5. オプション:あなたの分析を友人と共有したり、助けを求めたりする場合は、他の人が見ることができるように公開する必要があります。

  • ビッグブルーの「公開」ボタンを押して、カーネルを公開してください。 (これには1秒かかる場合があります)。
  • 青い「公開」テキスト(「フォークノート」ボタンのすぐ上)をクリックして、表示を「公開」に変更します。