kaggleぐるぐる　5-Day Data Challenge - Day 3 - 周回遅れでIT業界デビューしたプロジェクトマネージャーのブログ

3日目です。

今日はt検定のお話です。

にしてもgoogle先生……中途半端です、って。（面白いからそのまま）
半分まで来ました！ですよね。あはは。

f:id:sionff:20171025063524p:plain

信じられますか？私たちはすでに中途半端です！

今日は何をしていますか？

今日、私たちは質問に答えるつもりです：2つのグループ間で数値変数が違いますか？この質問に答えるために、t検定を使用します。

t検定は、2つのグループ間の数値的尺度の差が信頼できるかどうかを推定するのに役立つ統計的検定です。 2つのグループをお互いに比較しているので、独立したサンプルのt検定と呼ばれる特別なt検定を使用します。（1つのサンプルのみでt検定を行うことはできますが、サンプリングしたグループの平均と標準偏差がどのようなものかを知る必要があります。）2つ以上のグループを比較する場合は、「分散分析」または「ANOVA」と呼ばれるt検定の拡張を使用することができます。

t検定はp値を返す。 P値が非常に低い（一般に0.01未満）場合、これは、偶然、最初のサンプルと同じディストリビューションから2番目のサンプルを引き出した可能性は低いという証拠です。 t検定の詳細については、無料でダウンロードできる第5章OpenIntro Statisticsの第5章を読むことをお勧めします。

どのようなデータが必要ですか？

今日の課題では、2つの異なるグループについて測定された数値変数が少なくとも1つあるデータセットが必要になります。（データセットに2つ以上のグループがある場合は、常に2つしか選択できません）。今日の課題に対してうまくいくデータセットがいくつかあります。

1. 穀類の栄養データセット。 2種類の穀類（暑いまたは寒い）に同じ量の砂糖またはナトリウムがあるかどうかを見ることができます。

2. 博物館、水族館、動物園のデータセット。動物園の収入が他のすべてのタイプの博物館を組み合わせたものと異なるかどうかを見ることができます。このデータセットではクリーニングが必要です。

3. 女性の靴価格データセット。ピンクの靴は他の靴の色よりも高価ですか？このデータセットではクリーニングが必要です。