Wie man die Pandas Mean Funktion verwendet

Name: Oluwaseun Adeojo

Aktualisiert am 4.6.2023

Pandas, eine wesentliche Bibliothek in Python, stattet Datenwissenschaftler mit leistungsstarken Tools zur Manipulation von Daten aus. Ein solches Tool, das häufig verwendet wird, ist die Pandas Mean Funktion. Nach Definition berechnet die Mean Funktion den Durchschnitt der Zahlen in einem gegebenen Datensatz, aber ihre Anwendungen in der Datenanalyse gehen viel weiter.

Möchten Sie schnell Datenvisualisierungen in Python erstellen?

PyGWalker ist ein Open-Source Python-Projekt, das den Workflow der Datenanalyse und -visualisierung in Jupyter Notebook-basierten Umgebungen beschleunigen kann.

PyGWalker (opens in a new tab) verwandelt Ihr Pandas Dataframe (oder Ihr Polars Dataframe) in eine visuelle Benutzeroberfläche, in der Sie Variablen per Drag-and-Drop ziehen und ablegen können, um mühelos Diagramme zu erstellen. Verwenden Sie einfach den folgenden Code:

pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)

Sie können PyGWalker jetzt direkt mit diesen Online-Notebooks ausführen:

Und vergessen Sie nicht, uns auf GitHub ⭐️ zu geben!

PyGWalker in einem Kaggle Notebook ausführen (opens in a new tab)	PyGWalker in Google Colab ausführen (opens in a new tab)	PyGWalker auf GitHub mit ⭐️ bewerten (opens in a new tab)
(opens in a new tab)	(opens in a new tab)	(opens in a new tab)

Verständnis der Pandas Mean Funktion

Die Pandas Mean Funktion kann sowohl auf einem DataFrame als auch auf einer Series angewendet werden. Wenn sie auf einem DataFrame angewendet wird, gibt sie eine Series mit dem Durchschnitt über eine angegebene Achse zurück, und wenn sie auf einer Series verwendet wird, liefert sie einen Skalarwert, im Wesentlichen eine einzige Zahl.

Grundlegende Syntax:

pandas.DataFrame.mean()
pandas.Series.mean()

Das Verständnis von Durchschnitt, Median und Modus ist in jedem Datenfeld wesentlich. Die Auswahl der Achse (Zeilen oder Spalten) für die Durchschnittsberechnung unterstreicht ihre Flexibilität.

Wichtige Parameter der Pandas Mean Funktion

Damit die Mean Funktion richtig verwendet werden kann, ist es wichtig, ihre Parameter zu verstehen:

axis: Der Achsenparameter ist eine Wahl zwischen Zeilen (axis='columns' oder 1) und Spalten (axis='index' oder 0) für die Berechnung des Durchschnitts.
skipna (Standardwert ist True): Dieser Parameter entscheidet, ob NA/Null-Werte bei der Berechnung des Ergebnisses einbezogen oder ausgeschlossen werden sollen. Wenn er auf False gesetzt ist und ein NA in den Daten vorhanden ist, gibt die Mean-Funktion "NaN" zurück.
level: Dies wird verwendet, wenn Sie es mit einem DataFrame mit mehreren Indizes zu tun haben. Sie können den Namen (oder die Zahl) des Indexes für die Durchschnittsberechnung übergeben.
numeric_only: Dieser Parameter ist nützlich, wenn Ihr DataFrame gemischte Datentypen enthält. Es wird im Allgemeinen empfohlen, diesen Parameter standardmäßig zu belassen, um zu beginnen.

Eintauchen in Beispiele

Werfen wir einen Blick darauf, wie die Pandas Mean Funktion anhand einiger Beispiele funktioniert.

Grundlegende Verwendung:

import pandas as pd
 
# Erstellen eines einfachen Dataframes
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})
 
print(df.mean())

In dem obigen Beispiel berechnen wir den Durchschnitt jeder Spalte. Die Ausgabe wird eine Series mit dem Durchschnitt der Spalten A, B und C sein.

Verwendung des Achsenparameters:

print(df.mean(axis='columns'))

Hier berechnen wir den Durchschnitt entlang der Zeilen. Die Ausgabe wird eine Series mit dem Durchschnitt jeder Zeile sein.

Verwendung des skipna-Parameters:

df = pd.DataFrame({
    'A': [1, 2, 3, None],
    'B': [4, None, 6, 7],
    'C': [7, 8, None, 9]
})
 
print(df.mean(skipna=False))

In diesem Beispiel schließen wir NA-Werte in unsere Berechnung ein, indem wir skipna auf False setzen. Da wir NA-Werte in unseren Daten haben, gibt die Mean-Funktion für den Durchschnitt "NaN" zurück.

Fazit

Zusammenfassend ist die Pandas Mean Funktion ein leistungsstarkes Werkzeug für die Datenanalyse. Sie ermöglicht Flexibilität bei der Wahl der Achse für die Berechnung und den Umgang mit Nullwerten. Durch das Verständnis ihrer Parameter und deren Verwendung kann man ihr volles Potenzial ausschöpfen. Üben Sie anhand von Beispielen und bleiben Sie consistent.