周回遅れでIT業界デビューしたプロジェクトマネージャーのブログ

就職氷河期にモロにぶち当たり、人生で混迷を極めた末にIT業界に安寧を見出そうとしているアラフォーの活動日記です。

kaggleぐるぐる 5-Day Data Challenge - Day 2

f:id:sionff:20171025063524p:plain

2日目です。

今日も微妙なgoogle翻訳でお届けします。
ヒストグラムを描いてみましょう!


f:id:sionff:20171025064734p:plain

私はあなたが昨日の挑戦を楽しんだことを願っています。今日、私たちのデータを見ていきます。文字通り!

今日は何をしていますか?

今日では、ヒストグラムを使って数値変数をプロットします。数値データは、測定しているものを高さ、重さ、収入、距離、クリック数などの数値で表すことができます。

ヒストグラムは、x軸(下端に沿って)が変数の数値の範囲であり、一連のビンに分割されたグラフの一種です。たとえば、値の範囲が0〜12の場合、4つのビンに分割されます。最初のビンは1〜3、2番目のビンは4〜6、3番目のビンは7〜8、4番目のビンは12〜 y軸(側面に沿って)は、各ビン内の観測数の数です。

どのようなデータが必要ですか?

今日の課題では、少なくとも1つの数値変数を含むデータセットが必要になります。 (これは、データフレーム内の列の1つに番号があることを意味します)。

挑戦の指示

1. データセットを検索し、カーネルを起動し、ライブラリにロードし、データフレームにデータを読み込みます(これは昨日と同じように)。ここに少なくとも1つの数値変数を持つデータセットのリストがあります。ノートブックに「5日間のデータチャレンジ:2日目」のような有益なタイトルを付けることを忘れないでください。


2. ビジュアライゼーションライブラリに読み込みます。私はお勧めしたい:

  • Python:Matplotlib.pyplot(コマンド:pltとしてmatplotlib.pyplotをインポートする)
  • R:パッケージに含まれているggplot2。あなたがtidyverseライブラリ(コマンド:library(tidyverse))にロードした場合、すでにggplot2にアクセスできます。


3. 1つの列を数値変数で選択します。 (ヒント:Pythonのdescribe()関数やRのsummary()関数を使用して、数値の列を特定することができます。

  • Python:データフレームの1つの列だけを取得するには、構文data​​frame ["columnName"]を使用します
  • R:データフレームの1列だけを取得するには、構文data​​frame $ columnName


4. その列のヒストグラムをプロットします。試してみてください:

  • Python:Matplotlibのhist()関数
  • R:geom_histogram()ggplot2層。ggplot()コマンドを使って生成された空白のプロットに追加する必要があります

5. タイトルを追加することを忘れないでください! :) 使用:

  • Python:plt.title()コマンド
  • R:ggtitle()レイヤー


6. オプション:あなたの分析を友人と共有したり、助けを求めたりする場合は、他の人が見ることができるように公開する必要があります。

  • ビッグブルーの「公開」ボタンを押して、カーネルを公開してください。 (これには1秒かかる場合があります)。
  • 青い「公開」テキスト(「フォークノート」ボタンのすぐ上)をクリックして、表示を「公開」に変更します。