kaggleぐるぐる 5-Day Data Challenge - Day 2
今日は何をしていますか?
今日では、ヒストグラムを使って数値変数をプロットします。数値データは、測定しているものを高さ、重さ、収入、距離、クリック数などの数値で表すことができます。
ヒストグラムは、x軸(下端に沿って)が変数の数値の範囲であり、一連のビンに分割されたグラフの一種です。たとえば、値の範囲が0〜12の場合、4つのビンに分割されます。最初のビンは1〜3、2番目のビンは4〜6、3番目のビンは7〜8、4番目のビンは12〜 y軸(側面に沿って)は、各ビン内の観測数の数です。
どのようなデータが必要ですか?
今日の課題では、少なくとも1つの数値変数を含むデータセットが必要になります。 (これは、データフレーム内の列の1つに番号があることを意味します)。
挑戦の指示
1. データセットを検索し、カーネルを起動し、ライブラリにロードし、データフレームにデータを読み込みます(これは昨日と同じように)。ここに少なくとも1つの数値変数を持つデータセットのリストがあります。ノートブックに「5日間のデータチャレンジ:2日目」のような有益なタイトルを付けることを忘れないでください。
2. ビジュアライゼーションライブラリに読み込みます。私はお勧めしたい:
- Python:Matplotlib.pyplot(コマンド:pltとしてmatplotlib.pyplotをインポートする)
- R:パッケージに含まれているggplot2。あなたがtidyverseライブラリ(コマンド:library(tidyverse))にロードした場合、すでにggplot2にアクセスできます。
3. 1つの列を数値変数で選択します。 (ヒント:Pythonのdescribe()関数やRのsummary()関数を使用して、数値の列を特定することができます。
- Python:データフレームの1つの列だけを取得するには、構文dataframe ["columnName"]を使用します
- R:データフレームの1列だけを取得するには、構文dataframe $ columnName
4. その列のヒストグラムをプロットします。試してみてください:
- Python:Matplotlibのhist()関数
- R:geom_histogram()ggplot2層。ggplot()コマンドを使って生成された空白のプロットに追加する必要があります
5. タイトルを追加することを忘れないでください! :) 使用:
- Python:plt.title()コマンド
- R:ggtitle()レイヤー
6. オプション:あなたの分析を友人と共有したり、助けを求めたりする場合は、他の人が見ることができるように公開する必要があります。
- 青い「公開」テキスト(「フォークノート」ボタンのすぐ上)をクリックして、表示を「公開」に変更します。