kaggleぐるぐる 5-Day Data Challenge - Day 4
今日は何をしていますか?
今日では、数値データから抜け出し、カテゴリデータに変わります。
カテゴリデータは、他のデータポイントがどこにあるかを分類する情報を含むデータタイプです。例のカテゴリは、Tシャツサイズ、郵便番号、犬の品種、誰かがリピート顧客であるかどうか、教育レベルまたは髪色などです。
棒グラフを使用してカテゴリデータを視覚化します。棒グラフでは、各カテゴリは異なる棒として表され、棒の高さはそのカテゴリの項目の数を示します。
挑戦の指示
1. まず、データセットの検索、カーネルの起動、ライブラリへのロード、データフレームへのデータの読み込みなど、通常の作業から始めます。ここに少なくとも1つのカテゴリ変数を持つデータセットのリストがあります。ノートブックに「5日間のデータチャレンジ:4日目」のような有益なタイトルを付けることを忘れないでください。私はお勧めしたい:
- Python:Matplotlib(コマンド:pltとしてmatplotlib.pyplotをインポートする)とpandas(コマンド:pdをimport pandas)
- R:tidyverseライブラリに含まれるggplot(コマンド:library(tidyverse))
2. カテゴリ変数を含む列を選択します。
3. 棒グラフをプロットする。私はお勧めしたい:
- Python:Matplotlibのplt.bar()関数の使用
- R:ggplotにgeom_bar()レイヤーを追加する
4. タイトルを追加することを忘れないでください! :)試してみてください:
- Python:plt.title()コマンド
- R:ggtitle()レイヤー
5. 余分なクレジット:あなたのデータセットの別のビジュアライゼーションを選んで、あなたの選択した言語でそれを行う方法を理解してください。 (私はこのインタラクティブなデータ視覚化カタログが好きで、使用するグラフまたはグラフの種類を選ぶことができます。)
6. オプション:あなたの分析を友人と共有したり、助けを求めたりするには、他の人が見ることができるように公開する必要があります。
- 青い「公開」テキスト(「フォークノート」ボタンのすぐ上)をクリックして、表示を「公開」に変更します。