Skip to content

Pandasの平均値関数の使い方

Updated on

Pandasは、データサイエンティストにデータを操作するための強力なツールを提供するPythonで欠かせないライブラリです。そのようなツールの1つで、頻繁に使用されるのが「平均値関数」です。定義通り、平均値関数は、与えられたデータセット内の数値の平均を計算しますが、データ分析におけるその応用ははるかに深いです。

Pythonで素早くデータ可視化を作成したいですか?

PyGWalkerは、Jupyter Notebookベースの環境で直接データ分析および可視化のワークフローを高速化するのに役立つオープンソースのPythonプロジェクトです。

PyGWalker (opens in a new tab)は、PandasのDataframe(またはPolarsのDataframe)を視覚的なUIに変換して、変数をドラッグアンドドロップして簡単にグラフを作成できます。次のコードを使用するだけです:

pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)

今すぐオンラインノートブックでPyGWalkerを実行できます:

そして、GitHubで⭐️をお忘れなく!

Kaggle NotebookでPyGWalkerを実行 (opens in a new tab)Google ColabでPyGWalkerを実行 (opens in a new tab)PyGWalkerに⭐️をつける (opens in a new tab)
Kaggle NotebookでPyGWalkerを実行 (opens in a new tab)Google ColabでPyGWalkerを実行 (opens in a new tab)GitHub (opens in a new tab)

Pandas Meanの理解

Pandas Mean関数は、DataFrameとSeriesの両方に適用できます。 DataFrameに適用する場合、指定した軸に沿った平均を返し、Seriesに使用する場合、スカラー値、すなわち単一の数値を生成します。

基本構文:

pandas.DataFrame.mean()
pandas.Series.mean()

平均、中央値、モードの理解は、どのデータフィールドでも重要です。平均値の計算における軸(行または列)の選択は、その柔軟性を強調しています。

Pandas Meanの重要なパラメーター

平均値関数を正しく使用するためには、そのパラメーターを理解することが重要です。

  1. axis:axisパラメータは、平均値を計算する行(axis='columns'または1)と列(axis='index'または0)のどちらかを選択する必要があります。

  2. skipna(デフォルトはTrue):このパラメータは、結果を計算する際にNA / null値を含めるか除外するかを決定します。 Falseに設定し、データにNAが含まれている場合、平均関数は「NaN」を返します。

  3. level:これは、マルチインデックスDataFrameを処理する場合に使用されます。平均値の計算のためのレベルの名前(またはint)を渡すことができます。

  4. numeric_only:このパラメータは、DataFrameに異なるデータ型が含まれる場合に便利です。基本的には、これをデフォルトのままにしておくことが推奨されています。

例に入門

Pandas Mean関数がどのように動作するかをいくつかの例を通じて見てみましょう。

基本的な使用法:

import pandas as pd
 
# Creating a simple dataframe
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})
 
print(df.mean())

上記の例では、各列の平均を計算しています。出力は、A、B、Cの列の平均を含むシリーズになります。

axisパラメータを使用:

print(df.mean(axis='columns'))

ここでは、行方向の平均を計算します。出力は、各行の平均を含むシリーズになります。

skipnaパラメータを使用:

df = pd.DataFrame({
    'A': [1, 2, 3, None],
    'B': [4, None, 6, 7],
    'C': [7, 8, None, 9]
})
 
print(df.mean(skipna=False))

この例では、skipnaをFalseに設定してNA値を計算に含めています。データにNA値が含まれているため、平均関数は平均のために「NaN」を返します。

結論

Pandas Mean関数は、データ分析のための強力なツールです。計算用の軸の選択とnull値の扱いに柔軟性を持たせることができます。パラメータとその使用法を理解することで、その全ポテンシャルを発揮することができます。例を通じた練習と一貫性を持って続けることが肝要です。