Wie man die Pandas Get Dummies Funktion effektiv verwendet

Name: Oluwaseun Adeojo

Aktualisiert am 19.8.2023

Die Pandas-Bibliothek in Python bietet viele robuste und vielseitige Funktionen zur Datenmanipulation, und die get_dummies Funktion ist eine davon. Dieses Tutorial soll Ihnen helfen, diese Funktion zu verstehen und effektiv in Ihren Datenvorverarbeitungsaufgaben einzusetzen.

Möchten Sie schnell Data Visualizations in Python erstellen?

PyGWalker ist ein Open Source Python Projekt, das Ihnen hilft, den Workflow zur Datenanalyse und Visualisierung direkt innerhalb einer Jupyter Notebook-Umgebung zu beschleunigen.

PyGWalker (opens in a new tab) verwandelt Ihr Pandas Dataframe (oder Polars Dataframe) in eine visuelle Benutzeroberfläche, in der Sie Variablen per Drag-and-Drop ziehen und ablegen können, um mit Leichtigkeit Diagramme zu erstellen. Verwenden Sie einfach den folgenden Code:

pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)

Sie können PyGWalker jetzt direkt mit diesen Online-Notebooks ausführen:

Und vergessen Sie nicht, uns auf GitHub ⭐️:

PyGWalker in Kaggle Notebook ausführen (opens in a new tab)	PyGWalker in Google Colab ausführen (opens in a new tab)	PyGWalker auf GitHub ⭐️ geben (opens in a new tab)
(opens in a new tab)	(opens in a new tab)	(opens in a new tab)

Verständnis der Pandas Get Dummies Funktion

Die get_dummies Funktion von Pandas ist ein leistungsstolles Werkzeug zur Verarbeitung kategorischer Daten. Sie wandelt kategorische Variable(n) in Dummy/Indicator-Variablen um. Dabei werden neue Spalten für jede einzigartige Kategorie in einer kategorischen Variable erstellt, wobei Einsen (1) und Nullen (0) das Vorhandensein oder Fehlen der Kategorie in der Originalzeile angeben.

Warum ist das wichtig? Maschinelles Lernen-Algorithmen arbeiten in der Regel mit numerischen Daten. Daher müssen kategoriale Daten oft in ein numerisches Format umgewandelt werden, und hier kommt get_dummies ins Spiel.

import pandas as pd
 
# Beispiel-Daten
data = pd.DataFrame({'pets': ['cat', 'dog', 'bird', 'cat']})
 
# Anwendung von get_dummies
dummies_data = pd.get_dummies(data)
 
print(dummies_data)

Dies gibt folgende Ausgabe:

   pets_bird  pets_cat  pets_dog
0          0         1         0
1          0         0         1
2          1         0         0
3          0         1         0

Die Funktionsweise der Get Dummies Funktion

Die get_dummies Funktion hat mehrere Parameter, um eine granulare Kontrolle über ihre Funktionsweise zu ermöglichen. Hier ist eine kurze Übersicht über diese Parameter:

data: Das Eingabe DataFrame oder die Eingabe Series, aus denen die Dummy-Variablen generiert werden sollen.
prefix: Optionaler String-Präfix für die Spaltennamen der Dummy-Variablen.
prefix_sep: Optionaler String-Separator, der zwischen Präfix und Spaltenname verwendet wird. Standardmäßig "_".
dummy_na: Boolean-Wert, um eine Spalte hinzuzufügen, die NaN-Werte anzeigt. Wenn false, werden NaNs ignoriert. Standardmäßig False.
columns: Optionale Liste von Spaltennamen, die in Dummy-Variablen umgewandelt werden sollen. Wenn nicht angegeben, werden alle Spalten mit Object- und Category-Daten typen umgewandelt.
sparse: Boolean-Wert, um ein SparseDataFrame zurückzugeben, wenn True, ansonsten ein reguläres DataFrame. Standardmäßig False.
drop_first: Boolean-Wert, um k-1 Dummies aus k kategorischen Levels zu erhalten, indem das erste Level entfernt wird. Dies vermeidet Multikollinearität. Standardmäßig False.

Praktische Beispiele für Pandas Get Dummies

Lassen Sie uns mehr praktische Beispiele für die Verwendung der get_dummies Funktion betrachten.

1. Verwendung des prefix-Parameters

Sie können den prefix-Parameter verwenden, um den neuen Dummy-Variablen-Spalten einen spezifischen Präfix hinzuzufügen. Dies kann später bei der Identifizierung der Quelle dieser Spalten hilfreich sein.

# Anwendung von get_dummies mit Präfix
dummies_data_prefix = pd.get_dummies(data, prefix='pets')
 
print(dummies_data_prefix)

2. Umgang mit NaN-Werten

Bei der Arbeit mit realen Daten werden Sie oft auf fehlende Werte stoßen. Mit dem dummy_na-Parameter können Sie eine separate Dummy-Spalte für NaN-Werte erstellen.

# Beispiel-Daten mit NaN
data = pd.DataFrame({'pets': ['cat', 'dog', 'bird', None]})
 
# Anwendung von get_dummies mit dummy_na
dummies_data_nan = pd.get_dummies(data, dummy_na=True)
 
print(dummies_data_nan)

3. Arbeiten mit mehreren Spalten

Die get_dummies Funktion kann auf mehrere Spalten gleichzeitig angewendet werden. Im folgenden Beispiel erstellen wir Dummy-Variablen für zwei kategoriale Spalten - 'pets' und 'color'.

# Beispiel-Daten mit mehreren Spalten
data = pd.DataFrame({'pets': ['cat', 'dog', 'bird', 'cat'], 'color': ['black', 'white', 'black', 'white']})
 
# Anwendung von get_dummies auf mehrere Spalten
dummies_data_multi = pd.get_dummies(data, columns=['pets', 'color'])
 
print(dummies_data_multi)

Fazit

Zusammenfassend kann das Beherrschen der Funktion pd.get_dummies() Ihre Fähigkeiten zur Datenverarbeitung für maschinelles Lernen in Projekten verbessern. Es ist ein unverzichtbares Werkzeug zur Handhabung kategorischer Daten, um sicherzustellen, dass sie im richtigen Format für Ihre Algorithmen vorliegen.