周回遅れでIT業界デビューしたプロジェクトマネージャーのブログ

就職氷河期にモロにぶち当たり、人生で混迷を極めた末にIT業界に安寧を見出そうとしているアラフォーの活動日記です。

kaggleぐるぐる 5-Day Data Challenge - Day 1

f:id:sionff:20171025063524p:plain

2017年10月23日から27日はkaggle週間!
ということで5-Day Data Challengeにエントリーしました。

毎日、やることを書いたメールが届いて、Live Streamもやってという感じです。
取り急ぎ案内のメールをgoogle翻訳にかけたのでぺたり。
訳が相変わらずちょっと変だけど気にしない!

私たちがカバーするもの

ここでは、毎日やっていることの一般的な内訳を示します。 (あなたがこれらの言葉のいくつかを知らなければ心配しないで、一緒に話すつもりです!)。私は、電子メールを開いて終了するまでに30分以上かかることのない練習をまとめようとしました。

  • 1日目:データセットカーネルに読み込んでまとめます。
  • 2日目:ヒストグラムを使って数値変数をプロットする。
  • 3日目:t検定を使用して、数値変数が2つのグループで異なるかどうかを判断します。
  • 4日目:棒グラフを使用してカテゴリの違いをプロットします。
  • 5日目:カイ二乗検定を使用して、グループ間でカテゴリ変数が異なるかどうかを判断します。

材料

  • Eメール:毎日午後12時(午前5時)(PST午前5時)にEメールが届きます。
  • ライブストリーミング:私はまた、午後3時30分から午後4時30分(午後8時30分〜午前9時30分)の間、ツイッチでライブストリーミングする予定ですので、お気軽に質問してください!
  • 録画:ライブストリームを見逃しても心配しないでください。次の7日間、ツイッチで録画が利用可能になります。
  • フォーラム:より多くのヘルプが必要ですか?フォーラムでは、他の5日間のチャレンジャーの質問も自由にしてください。

さっそくDay1

f:id:sionff:20171025063551p:plain

あなたのデータサイエンスの旅を始めることにおめでとう!

今日は何をしていますか?

データをカーネルに読み込んだり(またはインポートして)、RまたはPythonを使って要約します。コーディングが初めての方は、両方の言語でエクササイズを試してみて、どのようなものかを確認してください。

どのようなデータが必要ですか?

今日の課題では、.csvファイルを含むデータセットが必要になります。 「CSV」は「コンマ区切り値」の略で、スプレッドシートを保存する方法で、各行が新しい行で、各値の間にカンマがあります。データセットには.csvが含まれているかどうかを確認するには、データセットに移動し、上部の[データ]タブ(見出しの下)をクリックし、.csv拡張子のファイルがあるかどうかを確認します。データセットを見つけるのに問題がある場合は、このブログの記事を参照してください。

挑戦の指示


1. 興味深いKaggleデータセットを見つけ、その中に少なくとも.csvファイルが1つあります。 (楽しい初心者向けのデータセットの一覧はこちらからご覧いただけます。今日は、どのデータセットを選択しても問題ありません)。


2. 新しいカーネルを起動します。これは、データセットの概要をすばやく表示する方法です。任意のデータセットの左上に表示される青色の「新しいカーネル」ボタンをクリックすると、これを行うことができます。ノートブックカーネルを選ぶことをお勧めします。 「5日間のデータチャレンジ:1日目」のような有益なタイトルを付けてください。


3. あなたの言語を選んでください。カーネルPython 3で起動しますが、Rでカーネルを書き込むこともできます。ノートブックの上部にあるドロップダウンメニューを使って言語を変更します。


4. あなたが使っているライブラリを読んでください。 (ライブラリは基本プログラミング言語には含まれていない便利な関数の集合です)

  • Python:pandas(コマンド:pandasをpdとしてインポート)
  • R:tidyverse(コマンド:library(tidyverse))


5. データをデータフレームに読み込みます。カッコで囲む必要があるファイル名は "../input/filename.csv"のようになります。使用:

  • R:TidyverseパッケージからRに組み込まれたRead.csv()関数またはread_csv()関数


6. あなたのデータを要約する。これを行う1つの方法は、上で書いたread_csvまたはread.csv関数を以下の関数のカッコの中に入れることです。試してみてください:

  • Python:Pandasの関数Describe()
  • R:Rに組み込まれたSummary()関数


7. オプション:あなたの分析を友人と共有したり、助けを求めたりする場合は、他の人が見ることができるように公開する必要があります。

  • ビッグブルーの「公開」ボタンを押して、カーネルを公開してください。 (これには1秒かかる場合があります)。
  • 青い「公開」テキスト(「フォークノート」ボタンのすぐ上)をクリックして、表示を「公開」に変更します。