Skip to content

Wie man eine leere DataFrame in Pandas erstellt

Updated on

Als Data Scientist ist die Arbeit mit Datensätzen eine tägliche Angelegenheit. Der Datensatz kann in Form einer CSV (durch Komma getrennte Werte) Datei, einer JSON (JavaScript Object Notation) Datei, einer SQL (Structured Query Language) Datenbank oder einer externen API (Application Programming Interface) vorliegen. Sobald wir den Datensatz haben, müssen wir daran arbeiten, Muster und Erkenntnisse herauszufiltern. Hierfür verwenden wir verschiedene Tools und Bibliotheken, wobei eine davon Pandas ist.

Pandas ist eine weit verbreitete Python-Bibliothek für die Datenmanipulation und -analyse. Es bietet eine benutzerfreundliche Schnittstelle für die Datenbereinigung, -transformation und -visualisierung. DataFrame, Series und Index sind die Hauptkomponenten von Pandas. In diesem Artikel werden wir uns auf DataFrame konzentrieren und lernen, wie man eine leere DataFrame in Pandas erstellt.

Wollen Sie schnell Data Visualizations in Python erstellen?

PyGWalker ist ein Open Source Python Projekt, das helfen kann, den Workflow der Datenanalyse und Visualisierung direkt in einer Jupyter Notebook-basierten Umgebung zu beschleunigen.

PyGWalker (opens in a new tab) verwandelt Ihr Pandas Dataframe (oder Polars Dataframe) in eine visuelle Benutzeroberfläche, in der Sie Variablen per Drag-and-Drop ziehen und ablegen können, um Diagramme mühelos zu erstellen. Verwenden Sie einfach den folgenden Code:

pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)

Sie können PyGWalker jetzt mit diesen Online-Notebooks ausführen:

Und vergessen Sie nicht, uns auf GitHub eine ⭐️ zu geben!

PyGWalker in Kaggle Notebook ausführen (opens in a new tab)PyGWalker in Google Colab ausführen (opens in a new tab)PyGWalker auf GitHub eine ⭐️ geben (opens in a new tab)
PyGWalker in Kaggle Notebook ausführen (opens in a new tab)PyGWalker in Google Colab ausführen (opens in a new tab)PyGWalker in Google Colab ausführen (opens in a new tab)

Was ist ein DataFrame?

Ein DataFrame ist eine zweidimensionale gelabelte Datenstruktur mit Spalten, die potenziell unterschiedliche Typen haben können. Es ist ähnlich wie eine Tabellenkalkulation oder eine SQL-Tabelle, in der Daten in einem tabellarischen Format organisiert sind. Es besteht aus Zeilen und Spalten, wobei jede Zeile einen Datensatz und jede Spalte ein Merkmal oder Attribut dieses Datensatzes repräsentiert. Ein DataFrame ist eine vielseitige Datenstruktur, die verschiedene Arten von Daten speichern kann, einschließlich Ganzzahlen, Gleitkommazahlen, Zeichenketten und sogar anderen Pandas-Datenstrukturen. Sie können Operationen auf einem DataFrame durchführen, wie Filtern, Slicen, Verbinden und Aggregieren.

Warum brauchen wir eine leere DataFrame?

Eine leere DataFrame ist ein DataFrame ohne Zeilen und Spalten. Es ist manchmal nützlich, ein leeres DataFrame zu erstellen und es später mit Daten zu füllen oder Daten daran anzuhängen. Wenn wir zum Beispiel Daten über verschiedene Produkte in einem DataFrame speichern möchten, können wir ein leeres DataFrame mit Spalten wie ProductID, Produktname, Produktbeschreibung, Preis usw. erstellen und es dann mit Daten aus verschiedenen Quellen füllen.

Wie erstellt man eine leere DataFrame?

Es gibt verschiedene Möglichkeiten, eine leere DataFrame in Pandas zu erstellen. Hier werden wir drei Methoden behandeln:

Methode 1: Verwendung des DataFrame() Konstruktors

Der einfachste Weg, um eine leere DataFrame zu erstellen, besteht darin, den DataFrame() Konstruktor zu verwenden. Dieser Konstruktor liefert einen leeren DataFrame ohne Spalten und Zeilen zurück. Hier ist ein Beispiel:

import pandas as pd
 
df = pd.DataFrame()
print(df)

Ausgabe:

Leerer DataFrame
Spalten: []
Index: []

Wir sehen, dass der DataFrame df keine Spalten und keine Zeilen hat. Um Spalten hinzuzufügen, können wir einfach eine Liste von Spaltennamen df.columns zuweisen. Zum Beispiel:

df.columns = ['ProductID', 'ProductName', 'ProductDescription', 'Price']
print(df)

Ausgabe:

Leerer DataFrame
Spalten: [ProductID, ProductName, ProductDescription, Price]
Index: []

Nun haben wir einen leeren DataFrame mit vier Spalten erstellt.

Methode 2: Verwendung des dict() Konstruktors

Die zweite Methode zur Erstellung eines leeren DataFrame besteht darin, den dict() Konstruktor zu verwenden. Diese Methode erstellt ein leeres Wörterbuch und konvertiert es dann in ein DataFrame. Hier ist ein Beispiel:

import pandas as pd
 
data = dict(ProductID=[], ProductName=[], ProductDescription=[], Price=[])
df = pd.DataFrame(data)
print(df)

Ausgabe:

Leerer DataFrame
Spalten: [ProductID, ProductName, ProductDescription, Price]
Index: []

Wie in der vorherigen Methode können wir Spalten hinzufügen, indem wir eine Liste von Spaltennamen df.columns zuweisen.

Methode 3: Verwendung der from_dict() Methode

Die dritte Methode zur Erstellung eines leeren DataFrame besteht darin, die from_dict() Methode zu verwenden. Diese Methode erstellt ein DataFrame aus einem Wörterbuch leerer Listen. Hier ist ein Beispiel:

import pandas as pd
 
data = {'ProductID': [], 'ProductName': [], 'ProductDescription': [], 'Price': []}
df = pd.DataFrame.from_dict(data)
print(df)

Ausgabe:

Leerer DataFrame
Spalten: [ProductID, ProductName, ProductDescription, Price]
Index: []

Wir können Spalten hinzufügen, indem wir einer Liste von Spaltennamen die Variabel df.columns zuweisen.

Wie man überprüft, ob ein DataFrame leer ist?

Manchmal möchten wir überprüfen, ob ein DataFrame leer ist oder nicht. Wir können dies tun, indem wir das empty-Attribut eines DataFrame verwenden. Dieses Attribut liefert True zurück, wenn das DataFrame leer ist; andernfalls liefert es False. Hier ist ein Beispiel:

import pandas as pd
 
data = {'ProductID': [1, 2, 3], 'ProductName': ['A', 'B', 'C'], 'ProductDescription': ['Desc1', 'Desc2', 'Desc3'], 'Price': [10.0, 20.0, 30.0]}
df = pd.DataFrame(data)
 
print(df.empty)    # False
 
empty_df = pd.DataFrame()
print(empty_df.empty)    # True

Ausgabe:

False
True

In diesem Beispiel erstellen wir zunächst ein DataFrame df mit einigen Daten. Wir verwenden dann das empty-Attribut, um zu überprüfen, ob es leer ist oder nicht. Da df einige Daten enthält, gibt df.empty False zurück.

Wir erstellen dann ein leeres DataFrame empty_df mit der ersten Methode und überprüfen erneut, ob es leer ist, indem wir das empty-Attribut verwenden, das True zurückgibt.

Fazit

Das Erstellen eines leeren DataFrames ist eine häufige Operation in der Datenanalyse. In diesem Artikel haben wir gelernt, wie man mit verschiedenen Methoden in Pandas ein leeres DataFrame erstellt. Wir haben auch gelernt, wie man überprüft, ob ein DataFrame leer ist oder nicht. Jetzt können Sie mit Pandas DataFrames experimentieren und Ihre Datenanalysefähigkeiten verbessern.