Skip to content
Retour à tous les thèmes

PySpark

Tutoriels pratiques, références et correctifs pour ce thème.

Articles10

Tutoriel PySpark UDF : comment utiliser des fonctions définies par l’utilisateur (avec exemples)

Apprenez à écrire et utiliser des UDF PySpark (User Defined Functions) avec des exemples adaptés aux débutants : types de retour, gestion des valeurs nulles, enregistrement SQL et alternatives plus rapides comme les fonctions intégrées et les Pandas UDF.

UDF PySpark vs UDF Pandas vs `mapInPandas` : lequel utiliser ?

Comparez UDF PySpark, UDF Pandas et mapInPandas avec des exemples et un cadre de décision. Découvrez quelle approche est la plus rapide, la plus flexible et la mieux adaptée à votre charge de travail Spark.

PySpark DataFrame vers List : 5 meilleures façons de convertir des lignes et colonnes en listes Python

Apprenez à convertir des DataFrames PySpark en listes Python grâce à plusieurs méthodes : toPandas(), collect(), opérations rdd, et les bonnes pratiques pour les grands ensembles de données.

PySpark Gérer Null et NA : Recettes pratiques de nettoyage

Utilisez fillna, dropna, na.replace, coalesce et les comparaisons null-safe pour gérer les valeurs manquantes dans les DataFrames PySpark sans mauvaises surprises.

PySpark groupBy et agrégation : des synthèses fiables à l’échelle

Découvrez des schémas pratiques de groupBy PySpark, multi-agrégations avec alias, count distinct vs approx, gestion des groupes null, et tri des résultats.

PySpark Joins and Broadcast: Choisir le bon type de jointure à chaque fois

Comprendre les jointures inner/left/right/full/semi/anti dans PySpark, gérer les noms de colonnes dupliquées, et savoir quand diffuser (broadcast) les petites tables pour corriger le skew.

PySpark Lecture et Écriture CSV et Parquet : Guide d’E/S Fiables

Apprenez à charger et enregistrer des fichiers CSV et Parquet avec PySpark en contrôlant le schéma, les délimiteurs, l’en-tête, les modes de sauvegarde et la sortie partitionnée.

PySpark Select, Filter, and withColumn : recettes essentielles pour les DataFrames

Maîtrisez la sélection de colonnes, le filtrage de lignes, les colonnes conditionnelles, les raccourcis selectExpr et les modèles de cast sûrs dans les DataFrames PySpark.

Comment convertir une colonne de DataFrame PySpark en liste Python ?

Apprenez comment convertir facilement une colonne de DataFrame PySpark en une liste Python en utilisant différentes approches. Lisez ce guide complet pour trouver la meilleure façon d'extraire les données dont vous avez besoin de votre DataFrame PySpark.

PySpark Drop Column: Supprimez efficacement des colonnes des DataFrame

Découvrez comment supprimer efficacement une colonne dans un DataFrame PySpark. Ce guide fournit des explications détaillées, des définitions et des exemples pour vous aider à maîtriser la suppression de colonnes dans PySpark.