Skip to content

Ein umfassender Leitfaden: Verwendung von Pandas to_datetime für die Datenverarbeitung

Eine der robustesten Python-Bibliotheken für Datenanalyse und -manipulation ist Pandas. Eine vielseitige Funktion innerhalb von Pandas, die erheblich zur Zeitreihenanalyse beiträgt, ist die to_datetime()-Funktion. In diesem Leitfaden werden wir erläutern, wie Sie die Pandas to_datetime()-Funktion verwenden können, um Ihre Datumsdaten effektiv umzuwandeln.

Möchten Sie schnell Datenvisualisierungen in Python erstellen?

PyGWalker ist ein Open Source Python-Projekt, das den Datenanalyse- und Visualisierungs-Workflow direkt in einer Jupyter Notebook-basierten Umgebung beschleunigen kann.

PyGWalker (opens in a new tab) verwandelt Ihr Pandas Dataframe (oder Polars Dataframe) in eine visuelle Benutzeroberfläche, in der Sie Variablen per Drag & Drop ziehen und ablegen können, um Diagramme mit Leichtigkeit zu erstellen. Verwenden Sie einfach den folgenden Code:

pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)

Sie können PyGWalker jetzt direkt mit diesen Online-Notebooks ausführen:

Und vergessen Sie nicht, uns auf GitHub ⭐️ zu geben!

PyGWalker in Kaggle Notebook ausführen (opens in a new tab)PyGWalker in Google Colab ausführen (opens in a new tab)PyGWalker auf GitHub mit ⭐️ bewerten (opens in a new tab)
PyGWalker in Kaggle Notebook ausführen (opens in a new tab)PyGWalker in Google Colab ausführen (opens in a new tab)PyGWalker in Google Colab ausführen (opens in a new tab)

Verständnis der Pandas to_datetime()-Funktion

Pandas to_datetime() bietet einen flexiblen und umfassenden Ansatz für die Handhabung von Datumsformaten. Mit dieser Funktion können Sie eine Zeichenfolgendarstellung eines Datums in ein tatsächliches Datumsformat umwandeln, was beim Einsatz der umfangreichen Datumsfunktionalität von Pandas, wie z.B. Resampling, sehr hilfreich ist.

Die Syntax für to_datetime() lautet wie folgt:

pd.to_datetime(arg, errors='raise', dayfirst=False, yearfirst=False, utc=None, format=None, exact=True, unit=None, infer_datetime_format=False, origin='unix', cache=True)

Lassen Sie uns die wichtigsten Parameter dieser Funktion aufschlüsseln.

Parameter von to_datetime()

Hier sind die Hauptparameter, mit denen Sie interagieren werden, wenn Sie die Funktion to_datetime() verwenden:

  • arg: Dies sind die tatsächlichen Daten, die Sie in ein Datumsobjekt konvertieren möchten. Es handelt sich um einen flexiblen Parameter, der zahlreiche Datentypen wie int, float, string, datetime, list, tuple, Series, DataFrame oder dict akzeptiert.

  • format: Dieser Parameter gibt Pandas an, wie Ihre Zeichenfolgen interpretiert werden sollen, wenn sie in DateTime-Objekte umgewandelt werden.

  • origin: Das Referenzdatum, von dem aus Ihre Zeitstempel beginnen sollen. Standardmäßig ist es auf 'unix' eingestellt, was 1970-01-01 entspricht. Sie können auch Ihren eigenen Ursprung festlegen.

  • unit: Dadurch können Sie angeben, in welcher Einheit Ihre Ganzzahldaten relativ zum Ursprung sind. Wenn Sie z.B. 20203939 mit unit='s' übergeben, interpretiert Pandas dies als 20.203.939 Sekunden vom Ursprung entfernt.

  • dayfirst und yearfirst: Diese Parameter helfen Pandas, Daten zu analysieren, wenn Ihr Tag oder Jahr zuerst in Ihrem Format angegeben ist.

Formatcodes für Datum und Uhrzeit

Formatcodes sind wichtig, um Pandas anzuweisen, in welchem Format Ihre DateTime-Zeichenkette vorliegt. Hier sind einige wichtige Formatcodes:

- %Y: Jahr mit Jahrhundert
- %m: Monatszahl, nullgefüllt
- %d: Tag des Monats, nullgefüllt
- %H: Stunde (24-Stunden-Format), nullgefüllt
- %M: Minute, nullgefüllt
- %S: Sekunde, nullgefüllt
- %f: Mikrosekunde, nullgefüllt

Beispiele für die Verwendung von to_datetime()

Nun, da wir ein Verständnis für die Parameter und Formatcodes haben, gehen wir einige Beispiele durch.

Konvertieren einer Zeichenkette in ein DateTime-Objekt

import pandas as pd
 
datum_zeichenkette = '2023-05-30'
datum_objekt = pd.to_datetime(datum_zeichenkette)
print(datum_objekt)

Ändern des Datumsformats mit dem Formatparameter

import pandas as pd
 
datum_zeichenkette = '30-05-2023'
datum_objekt = pd.to_datetime(datum_zeichenkette, format='%d-%m-%Y')
print(datum_objekt)

Behandeln unterschiedlicher Zeiteinheiten mit dem Unit-Parameter

import pandas as pd
 
sekunden_seit_epoch = 160945
 
9200
datum_objekt = pd.to_datetime(sekunden_seit_epoch, unit='s')
print(datum_objekt)

Fazit

Zusammenfassend ist die Pandas to_datetime()-Funktion ein unverzichtbares Werkzeug in Ihrem Werkzeugkasten für die Datenanalyse. Die Flexibilität, die sie bei der Arbeit mit Daten bietet, ist von unschätzbarem Wert. Mit diesem Leitfaden haben Sie nun ein solides Verständnis dafür, wie Sie mit dieser Funktion Daten konvertieren und manipulieren können.