Skip to content

Wie man Pandas-Datenrahmen leicht zusammenfasst

Pandas ist ein leistungsstolles Werkzeug im Werkzeugkasten des Datenwissenschaftlers, insbesondere wenn es um die Aufgabe der Zusammenfassung von Datenrahmen geht. Das Verständnis dieser Methoden hilft nicht nur dabei, große Datensätze besser zu verstehen, sondern ermöglicht es auch, Erkenntnisse effektiver zu liefern. Hier werden wir die verschiedenen Funktionen, die für diesen Zweck verwendet werden, erkunden und zahlreiche Beispiele für Klarheit bereitstellen.

Wir werden den Supermarkt-Sales-Datensatz von Kaggle zu Demonstrationszwecken verwenden.

# Bibliothek importieren
import pandas as pd
 
# Datei importieren
ss = pd.read_csv('supermarket_sales.csv')
 
# Datenvorschau
ss.head()

Möchten Sie schnell Datendarstellungen in Python erstellen?

PyGWalker ist ein Open-Source-Python-Projekt, das den Workflow der Datenanalyse und -visualisierung direkt in einer Jupyter Notebook-basierten Umgebung beschleunigen kann.

PyGWalker (opens in a new tab) verwandelt Ihren Pandas-Datenrahmen (oder Ihren Polars-Datenrahmen) in eine visuelle Benutzeroberfläche, in der Sie Variablen per Drag-and-Drop ziehen und ablegen können, um Diagramme mühelos zu erstellen. Verwenden Sie einfach den folgenden Code:

pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)

Sie können PyGWalker jetzt mit diesen Online-Notebooks ausführen:

Und vergessen Sie nicht, uns auf GitHub ⭐️ zu geben!

PyGWalker in Kaggle-Notebook ausführen (opens in a new tab)PyGWalker in Google Colab ausführen (opens in a new tab)PyGWalker auf GitHub ⭐️ geben (opens in a new tab)
PyGWalker in Kaggle-Notebook ausführen (opens in a new tab)PyGWalker in Google Colab ausführen (opens in a new tab)PyGWalker in Google Colab ausführen (opens in a new tab)

Knappe Zusammenfassung mit info()

Die Methode info() liefert eine knappe Zusammenfassung eines Datenrahmens. Sie ist besonders hilfreich bei der Datenbereinigung, da sie Aufzeichnungszahlen, Spaltennamen, Datentypen, Indexbereich und Speicherauslastung anzeigt.

ss.info()

Deskriptive Statistiken mit describe()

describe() erzeugt deskriptive Statistiken, die Ihnen einen Einblick in die Verteilung und Form eines Datensatzes geben, wobei NaN-Werte ausgeschlossen werden.

ss.describe()

Die Standardergebnisse gelten für numerische Typen, aber mit dem include-Parameter können Statistiken für verschiedene Datentypen im Datenrahmen angezeigt werden.

ss.describe(include=['object', 'int'])

Eindeutige Wertezählung mit value_counts()

value_counts() gibt die Anzahl der eindeutigen Werte für eine angegebene Reihe zurück und schließt standardmäßig NaN-Werte aus.

ss['City'].value_counts()

Zählung verschiedener Beobachtungen mit nunique()

Die Funktion nunique() zählt verschiedene Beobachtungen und kann sowohl für einen Datenrahmen als auch für eine Reihe verwendet werden.

ss.nunique()

Summe der Werte mit sum()

sum() gibt die Summe der Werte für die angegebene Achse zurück und funktioniert sowohl mit Datenrahmen als auch mit Reihen.

ss.sum(numeric_only=True)

Anzahl der Nicht-NA/null-Beobachtungen mit count()

Die Funktion count() gibt die Anzahl der Nicht-NA/null-Beobachtungen zurück. Sie kann sowohl auf Datenrahmen als auch auf Reihen angewendet werden.

ss.count(numeric_only=True)

Minimum, Maximum, Mittelwert und Median

Diese Funktionen (min(), max(), mean() und median()) geben das Minimum, Maximum, Mittelwert und Median der Werte zurück.

ss.max()
ss.min()
ss.mean()
ss.median()

Anwendung mehrerer Aggregationsoperationen mit agg()

Die Funktion agg() ermöglicht die Anwendung mehrerer Aggregationsoperationen auf denselben Datensatz über die angegebene Achse.

ss.agg(['count', 'min', 'max', 'mean'])

Gruppierung von Daten mit groupby()

groupby() ermöglicht es Ihnen, Daten mit den gleichen Werten in zusammengefasste Zeilen zu gruppieren, indem Sie Aggregatfunktionen wie Summe, Maximum, Minimum anwenden.

ss.groupby('City').sum()
ss.groupby(['City', 'Customer type']).sum()

Um nach einem bestimmten Wert zu gruppieren und gleichzeitig mehr als einen Typ von Aggregation auf denselben Datensatz anzuwenden, können Sie die Funktion agg() verwenden.

ss.groupby('City').agg({'Total': ['count', 'min', 'max', 'mean'], 'Rating': 'mean'})

Fazit

Die Zusammenfassung von Pandas-Datenrahmen mag auf den ersten Blick komplex erscheinen, aber mit einem soliden Verständnis dieser Techniken können Sie das volle Potenzial Ihrer Datensätze ausschöpfen. Durch die Beherrschung dieser Methoden können Sie Ihren Datenanalyseprozess optimieren und Erkenntnisse klar und prägnant vermitteln.