PyGWalkerでヒストグラムやヒートマップを作成する方法
Updated on
ヒストグラムとヒートマップの紹介
ヒストグラム
ヒストグラムは、数値データの分布を示すグラフです。値はバケット(ビンとも呼ばれます)にグループ化され、各バケットに収まる値の数がカウントされます。
ヒストグラムは実際の値ではなくバケットをグラフ化します。各バーはバケットを象徴し、バーの高さはそのバケットの間隔に収まる値の頻度(例えばカウント)を示しています。
ヒートマップ
ヒートマップはヒストグラムに似ていますが、時間の経過に渡って、それぞれの時間スライスが一つのヒストグラムを表現します。頻度の表現にバーの高さを使う代わりにセルを使用し、バケット内の値の数に応じてセルの色を変えます。
ヒートマップはデータビジュアライゼーションの優れたツールであり、複雑な情報を簡単に理解できる形で効果的に伝達します。
PyGWalkerでのヒストグラムとヒートマップの作成方法
PyGWalkerでヒストグラムを作成する
以下の手順に従って、PyGWalkerでヒストグラムを作成できます:
-
データをインポートする。
-
指定されたフィールドのドロップダウンアイコンをクリックし、「新規計算」を選択。いくつかの変換を行うことができます。bin変換オプションをクリックします。それにより、次の新しいフィールド**bin (your field name)**が次元セグメントに作成されます。
-
**bin(your field name)**をx軸、row countをy軸として使用し、ヒストグラムを作成します。
PyGWalkerでヒートマップを作成する
以下の手順に従って、PyGWalkerでヒートマップを作成できます:
-
データをインポートします。
-
チャートタイプを選択:「マークタイプ」ボタンをツールバーでクリックし、「長方形」を選択。
-
変数を変換:変数を右クリックするとメニューが表示されます。「新規計算」オプションを選択。bin変換オプションをクリックします。それにより、次の新しいフィールド**bin (your field name)**が次元セグメントに作成されます。
-
チャートの作成:ヒートマップのx軸、y軸、カラーシェルフに変数をドラッグ&ドロップします。
ヒストグラムとヒートマップの使用ベストプラクティス
ヒストグラム
ゼロ値のベースラインを使用する
ヒストグラムの重要な側面は、ゼロ値のベースラインと共にプロットされなければならないということです。各バケット内のデータの頻度は各バーの高さによって示されるため、ベースラインを変更したり目盛りにギャップを導入したりすると、データの分布の認識が歪みます。
解釈しやすいバケット境界を選択する
一般的には、1、2、2.5、4、5(5、10、20を適切に分割する値)またはそのべき乗のバケットサイズが適切です。加えて、3、7、9のサイズのバケットは読みづらくなる可能性が高いため、特別な目的がない限り使用するべきではありません。
ヒートマップ
適切なカラーパレットを選択する
色はヒートマップのコアコンポーネントであるため、データに合った適切なカラーパレットを選ぶことが重要です。一般的には、値と色の間に連続的なカラースケールが存在し、明るい色は小さい値を、暗い色は大きい値を示します。
凡例を含める
通常、ヒートマップには異なる色が異なる数値をどのように表現するかを説明する凡例が必要です。色と値は本質的に関連していないため、キーがないと視聴者はヒートマップの値を理解することができません。値と色の正確な関係が重要でない場合、データの相対的なパターンのみが重要である場合には、凡例が不要なこともあります。
結論
ヒストグラムとヒートマップの基本を理解し、これらのデザインのコツを使用することで、PyGWalkerで効果的かつ直感的なヒストグラムとヒートマップを作成できます。データビジュアライゼーションの旅を楽しんでください。