Skip to content
Zurück zu allen Themen

PySpark

Praktische Anleitungen, Referenzen und Fehlerbehebungen zu diesem Thema.

Artikel10

PySpark UDF vs Pandas UDF vs `mapInPandas`: Welche solltest du verwenden?

Vergleiche PySpark UDF, Pandas UDF und mapInPandas mit Beispielen und einem Entscheidungsrahmen. Erfahre, welcher Ansatz am schnellsten, am flexibelsten und am besten für deine Spark-Workload ist.

PySpark UDF-Tutorial: So verwendest du User Defined Functions (mit Beispielen)

Lerne, wie du PySpark UDFs (User Defined Functions) mit anfängerfreundlichen Beispielen schreibst und verwendest – inkl. Rückgabetypen, Null-Handling, SQL-Registrierung und schnelleren Alternativen wie Built-in Functions und Pandas UDFs.

PySpark DataFrame zu List: 5 beste Wege, Zeilen und Spalten in Python-Listen zu konvertieren

Lerne, wie du PySpark DataFrames mit verschiedenen Methoden in Python-Listen umwandelst – inklusive toPandas(), collect(), rdd-Operationen und Best Practices für große Datensätze.

PySpark CSV und Parquet lesen und schreiben: Zuverlässiger IO-Guide

Lerne, wie du CSV und Parquet in PySpark mit Schemakontrolle, Delimitern, Header-Behandlung, Save Modes und partitionierter Ausgabe lädst und speicherst.

PySpark groupBy und Aggregation: Präzise Zusammenfassungen im großen Maßstab

Lerne praktische PySpark groupBy‑Muster, Multi‑Aggregation mit Aliases, count distinct vs approx, Umgang mit Null‑Gruppen und Sortierung der Ergebnisse.

PySpark Joins und Broadcast: Jedes Mal den richtigen Join wählen

Verstehe inner/left/right/full/semi/anti Joins in PySpark, gehe mit doppelten Spaltennamen um und erkenne, wann kleine Tabellen per Broadcast verteilt werden sollten, um Skew zu beheben.

PySpark mit Null und NA umgehen: Praktische Cleaning-Rezepte

Mit fillna, dropna, na.replace, coalesce und null-sicheren Vergleichen fehlende Daten in PySpark DataFrames ohne Überraschungen behandeln.

PySpark Select, Filter und withColumn: Zentrale DataFrame-Rezepte

Beherrsche das Auswählen von Spalten, Filtern von Zeilen, bedingte Spalten, selectExpr-Abkürzungen und sichere Casting-Patterns in PySpark DataFrames.

Wie konvertiert man eine PySpark DataFrame Spalte in eine Python-Liste?

Erfahren Sie, wie Sie eine PySpark DataFrame-Spalte mithilfe verschiedener Ansätze problemlos in eine Python-Liste konvertieren können. Lesen Sie diesen umfassenden Leitfaden, um die beste Methode zum Extrahieren der benötigten Daten aus Ihrem PySpark DataFrame zu finden.

Effizientes Entfernen von Spalten in PySpark-Datenframes

Erfahren Sie, wie Sie effizient eine Spalte im PySpark-Datenframe entfernen können. Dieser Leitfaden bietet detaillierte Erklärungen, Definitionen und Beispiele, um Ihnen beim Beherrschen des Spaltenentfernens in PySpark zu helfen.