Skip to content
パンダのデータ視覚化のためのChatGPTプロンプト

パンダのデータ視覚化のためのChatGPTプロンプト

Updated on

ChatGPTプロンプトとpygWalkerを使ってパンダのデータフレームを美しいグラフに変換する方法と、LIMEとShapを使ってMLモデルを説明する方法を学びましょう。

データ視覚化はデータ分析の重要な側面です。データを理解し、パターンや傾向を特定し、洞察を効果的に伝えるのに役立ちます。Pythonはデータ分析で最も人気のある言語の1つであり、PandasライブラリはPythonでデータを操作および分析するための人気のあるツールです。この記事では、ChatGPTプロンプトを使用してPandasデータフレームを美しいグラフに変換する方法について説明します。また、データビジュアライゼーションに PygWalker (opens in a new tab) という名前のオープンソースの Python ライブラリを使用する方法についても説明します。

📚

ChatGPT プロンプトの概要

ChatGPTは、OpenAIによってトレーニングされた大規模な言語モデルで、人間のようなテキストを生成できます。チャートをプロットするコードを生成するなど、データ分析のプロンプトを生成するために使用できます。プロンプトは使いやすく設計されており、データサイエンティストの時間と労力を節約できます。

ChatGPT プロンプトを使用してチャートをプロットする

Matplotlib でデータを視覚化するための ChatGPT プロンプト

ChatGPT プロンプトを使用して、Matplotlib ライブラリを使用してチャートをプロットできます。Matplotlib は Python でよく使われるビジュアライゼーションライブラリで、さまざまなチャートタイプとカスタマイズオプションが用意されています。ChatGPT プロンプトを使用して折れ線グラフをプロットする例を次に示します。

列が「日付」と「売上」の「sales_data.csv」という名前のデータセットがあるとします。時間の経過に伴う売上の傾向を示す折れ線グラフをプロットしたいと考えています。以下の ChatGPT プロンプトを使用できます。

プロンプト:Pythonのコーダーとして行動してほしい。["日付」と「売上」] の列を含むデータセット [」sales_data.csv「] があります。[時間の経過に伴う売上の傾向を示す折れ線グラフをプロットする]

ここでは、特定のシナリオに合わせて「[]」内の単語を変更できます。ChatGPT は次のコードを生成します。

コード_ブロック_プレースホルダー_0

このコードは、時間の経過に伴う売上の傾向を示す折れ線グラフを生成します。ChatGPT プロンプトを使用して、棒グラフ、散布図、ヒストグラムなど、他の種類のグラフのコードを生成することもできます。

Matplotlib でデータを視覚化するための ChatGPT プロンプト

データフレームからチャートをプロットするだけでなく、Matplotlib を使用して画像を表示することもできます。「image_folder」という名前の画像のフォルダーがあるとします。各画像には、「cat_01.jpg」、「dog_02.jpg」など、対応するラベルが付けられています。画像のグリッドとそのラベルを表示したいのです。次のサンプルプロンプトを使用してください。

プロンプト:コーダーになってほしい。画像のフォルダがあります。[ディレクトリ内のファイルの整理方法を説明してください] [画像を印刷する方法を説明してください]

チャットGPTは以下の Python コードを生成します。

コード_ブロック_プレースホルダー_1 このコードは、対応するラベルを含む画像のグリッドを生成します。ChatGPT プロンプトを使用して、キャプション付きの個々の画像や画像を並べて比較するなど、他の画像表示スタイルのコードを生成できます。

Limeでモデルを説明するためのChatGPTプロンプト

機械学習モデルの出力を説明したい場合があります。LIMEは、機械学習モデルを説明するための人気のあるライブラリです。scikit-learn ライブラリを使用してモデルをトレーニングしたとします。LIME を使ったモデルの出力を説明したいと思います。次のプロンプトを使用してください。

プロンプト:データサイエンティストとしてモデルの結果を説明してほしい。[ライブラリ名] モデルをトレーニングしましたが、LIMEを使用して出力を説明したいと思います。コードを書いてください。

コード_ブロック_プレースホルダー_2 このコードは、虹彩データセットの最初のデータポイントの説明を生成します。虹彩データセットには、がく片の長さ、がく片の幅、花びらの長さ、花びらの幅という4つの特徴があります。説明では、分類器の予測にとってどの特徴が最も重要かがわかります。

ChatGPT によるシェープによるモデルの説明プロンプト

機械学習モデルを説明するライブラリとしては、SHAP (Shapley Additive Explaations) もよく使われています。データセット全体にわたるモデルの出力に対する各特徴の寄与を示すことで、グローバルな解釈が可能になります。

ChatGPT には次のプロンプトを使用します。

プロンプト:データサイエンティストとしてモデルの結果を説明してほしい。scikit-learn XGBoostモデルをトレーニングしました。Shapを使った一連のプロットを使用して出力を説明したいと思います。コードを書いてください。

そして、これはChatGPTからの出力です。

コード_ブロック_プレースホルダー_3 このコードは、データセット全体にわたるモデルの出力の最も重要な特徴を示すサマリープロットを生成します。また、データセットの最初のデータポイントの強制プロットも生成され、各特徴がそのデータポイントのモデルの予測にどのように寄与しているかを示します。

📚