Pandas Unstack: Clearly Explained
Updated on
Pandasは、柔軟で効率的なデータ操作ライブラリです。Pandasの最も便利な機能の一つは、データを必要に応じてさまざまな方法で再構築できる能力です。この記事では、しばしば使用されるが完全に理解されていない「unstack()」関数に焦点を当てます。
Pandasの「unstack()」関数は、データフレームを再構築するためのメソッドです。この関数は、長い形式とワイドな形式の間でデータフレームをピボットするために使用される一連のメソッドの一部です。「unstack()」を効果的に使用する方法を理解すると、Pandasでのデータ操作の能力が大幅に向上します。
Python Pandasのデータフレームから簡単にデータ可視化を作成したいですか?
PyGWalkerは、可視化を伴う探索的データ分析のためのPythonライブラリです。PyGWalker (opens in a new tab)は、pandasデータフレーム(およびpolarsデータフレーム)をTableauスタイルのユーザーインターフェイスに変換することで、Jupyter Notebookのデータ分析およびデータ可視化ワークフローを簡素化できます。
Pandasのunstack()は何をするのか?
Pandasの「unstack()」関数は、データフレームを再構築するために使用されます。これは、行から列にデータを移動し、データを新しい表示方法として提供します。
たとえば、マルチレベルのインデックスを持つデータフレームを考えてみましょう。「unstack()」関数は、行インデックスの内部レベルから列見出しにデータを移動させることができます。これにより、ピポットテーブルが作成されます。これは、階層的なインデックスを扱う場合に特に役立ち、分析のためにデータをより使いやすい形式に再配置できます。
Pandasでデータをunstackする方法は?
Pandasでデータをunstackするのは簡単です。コンセプトを理解していれば、単に「unstack()」関数をDataFrameオブジェクトに対して呼び出すだけです。オプションの引数として、"unstack"または"pivot"するレベルを指定できます。
レベルを指定しない場合、「unstack()」関数はデータフレームのインデックスの最後のレベルをunstackします。異なるレベルをunstackする場合は、インデックスの番号または名前を指定できます。
基本的な例を示します:
import pandas as pd
## マルチインデックスのデータフレームを作成
index = pd.MultiIndex.from_tuples([(i, j) for i in ['A', 'B', 'C'] for j in ['x', 'y', 'z']])
df = pd.DataFrame({'Data': range(9)}, index=index)
## データフレームをunstack
df_unstacked = df.unstack()
print(df_unstacked)
この例では、「unstack()」関数がインデックスの最後のレベル('x'、'y'、'z')を列見出しにピボットし、ピポットテーブルを作成します。
unstackのレベルとは何ですか?
「unstack()」のレベルは、unstackまたはピボットするインデックスのレベルを指します。マルチレベルのインデックスを持つデータフレームでは、レベルは最も外部のレベル(0)から最も内部のレベルまで番号がつけられています。
「unstack()」を呼び出すときに、unstackするレベルを指定できます。レベルを指定しない場合、「unstack()」はインデックスの最後(または最も内部)のレベルをunstackします。
たとえば、['A', 'B', 'C']と['x', 'y', 'z']のマルチレベルインデックスを持つデータフレームの場合、'A'、'B'、'C'のレベルは0(最も外側のレベル)であり、'x'、'y'、'z'のレベルは1です。
いつunstack()とpivot()を使用するのか?
Pandasの「unstack()」関数と「pivot()」関数は、両方ともデータを再構築するために使用されますが、それぞれ異なる目的で使用され、異なるシナリオで使用されます。
「unstack()」関数は、マルチレベルのインデックスを持つデータフレームがある場合に使用されます。インデックスから1つ以上のレベルを列見出しに移動したい場合に使用します。これは、階層的なデータを持っており、分析しやすくするためにデータを再配置したい場合に特に便利です。
一方、「pivot()」関数は、列の値に基づいてデータを再構築する場合に使用されます。データを長い形式からワイド形式に変換または再構成することができます。同じ被験者に対して繰り返しの測定がある場合や、各測定を別々の列にしたい場合によく使用されます。
以下は、「unstack()」と「pivot()」を同じ分析で同時に使用する例です:
import pandas as pd
## データフレームを作成
df = pd.DataFrame({
'date': pd.date_range(start='2023-01-01', periods=3),
'country': ['US', 'UK', 'CA'] * 3,
'product': ['A', 'B', 'C'] * 3,
'sales': range(1, 10)
})
## データフレームをピボット
df_pivot = df.pivot(index='date', columns='country', values='sales')
## データフレームをunstack
df_unstack = df.set_index(['date', 'country']).unstack('country')
print(df_pivot)
print(df_unstack)
この例では、まず「pivot()」を使用して、各国を個別の列にし、売上を値として取得します。次に、同じ結果を得るために「unstack()」を使用し、'country'レベルをインデックスから列見出しに移動します。
まとめると、「unstack()」または「pivot()」を使用するかどうかは、データの構造と実行したい再構築操作によります。両方の関数はPandasでデータを再構築するための強力なツールであり、効果的に使用する方法を理解することで、データ分析の能力を大幅に向上させることができます。
結論
Pandasのアンスタックの芸術をマスターすることで、データ操作の能力を大幅に向上させることができます。 unstack()
関数は、行から列にデータをピボットする強力なツールであり、データの新たな視点を提供します。階層的なインデックスを扱っている場合や、データフレームのレベルをピボットしたい場合、unstack()
はすべてのデータアナリストのツールキットにあるべき関数です。この記事で提供される知識と例を使用して、Pandasで独自のデータフレームをアンスタックする準備ができました。アンスタックして楽しい時間を過ごしましょう!
よくある質問(FAQ)
pandasでのunstack()は何をするのですか?
Pandasのunstack()
関数は、データフレームを再形成するために使用されます。これは、データフレームを長い(または積み重ねられた)形式からワイド形式に「ピボット」するメソッドです。基本的には、データを行から列に移動して、データの新しい表示を提供します。
pandasでデータをアンスタックする方法は?
Pandasでデータをアンスタックするのは概念を理解してしまえば簡単です。unstack()
関数はDataFrameオブジェクトに対して呼び出され、1つのオプションの引数を取ります:「アンスタック」または「ピボット」するレベル。レベルが指定されていない場合、unstack()
関数はデータフレームのインデックスの最後のレベルをアンスタックします。異なるレベルをアンスタックしたい場合、インデックス番号または名前を指定することができます。
pandasでunstack()をpivot()と一緒に使用するタイミングは?
Pandasのunstack()
関数とpivot()
関数は、データを再形成するために使用されますが、少し異なる目的で使用され、異なるシナリオで使用されます。unstack()
関数は、マルチレベルインデックスを持つデータフレームがあり、インデックスから1つ以上のレベルを列ヘッダーに移動したい場合に使用されます。pivot()
関数は、列の値に基づいてデータを再形成したい場合に使用されます。