周回遅れでIT業界デビューしたプロジェクトマネージャーのブログ

就職氷河期にモロにぶち当たり、人生で混迷を極めた末にIT業界に安寧を見出そうとしているアラフォーの活動日記です。

kaggleぐるぐる 5-Day Data Challenge - Day 4

4日目です。

一週間ってあっというま! 
いつものgoogle翻訳でお届けします。


f:id:sionff:20171025063524p:plain

すでに4日目、あなたはそれを信じることができますか?あなたはすべてそれにこだわった。

f:id:sionff:20171027074141p:plain

今日は何をしていますか?

今日では、数値データから抜け出し、カテゴリデータに変わります。

カテゴリデータは、他のデータポイントがどこにあるかを分類する情報を含むデータタイプです。例のカテゴリは、Tシャツサイズ、郵便番号、犬の品種、誰かがリピート顧客であるかどうか、教育レベルまたは髪色などです。

棒グラフを使用してカテゴリデータを視覚化します。棒グラフでは、各カテゴリは異なる棒として表され、棒の高さはそのカテゴリの項目の数を示します。

どのようなデータが必要ですか?

この課題に対しては、カテゴリ変数を持つデータセットが必要になります。ここに少なくとも1つのカテゴリ変数を持つデータセットのリストがあります。

挑戦の指示

1. まず、データセットの検索、カーネルの起動、ライブラリへのロード、データフレームへのデータの読み込みなど、通常の作業から始めます。ここに少なくとも1つのカテゴリ変数を持つデータセットのリストがあります。ノートブックに「5日間のデータチャレンジ:4日目」のような有益なタイトルを付けることを忘れないでください。私はお勧めしたい:

  • Python:Matplotlib(コマンド:pltとしてmatplotlib.pyplotをインポートする)とpandas(コマンド:pdをimport pandas)
  • R:tidyverseライブラリに含まれるggplot(コマンド:library(tidyverse))


2. カテゴリ変数を含む列を選択します。


3. 棒グラフをプロットする。私はお勧めしたい:

  • Python:Matplotlibのplt.bar()関数の使用
  • R:ggplotにgeom_bar()レイヤーを追加する


4. タイトルを追加することを忘れないでください! :)試してみてください:

  • Python:plt.title()コマンド

  • R:ggtitle()レイヤー


5. 余分なクレジット:あなたのデータセットの別のビジュアライゼーションを選んで、あなたの選択した言語でそれを行う方法を理解してください。 (私はこのインタラクティブなデータ視覚化カタログが好きで、使用するグラフまたはグラフの種類を選ぶことができます。)


6. オプション:あなたの分析を友人と共有したり、助けを求めたりするには、他の人が見ることができるように公開する必要があります。

  • ビッグブルーの「公開」ボタンを押して、カーネルを公開してください。 (これには1秒かかる場合があります)。
  • 青い「公開」テキスト(「フォークノート」ボタンのすぐ上)をクリックして、表示を「公開」に変更します。