Skip to content
Volver a todos los temas

PySpark

Consulta tutoriales prácticos, referencias y soluciones en este tema.

Artículos10

Tutorial de PySpark UDF: Cómo usar funciones definidas por el usuario (con ejemplos)

Aprende a escribir y usar PySpark UDFs (User Defined Functions) con ejemplos fáciles para principiantes, tipos de retorno, manejo de nulos, registro en SQL y alternativas más rápidas como funciones integradas y Pandas UDFs.

UDF de PySpark vs UDF de Pandas vs `mapInPandas`: ¿Cuál deberías usar?

Compara UDF de PySpark, UDF de Pandas y mapInPandas con ejemplos y un marco de decisión. Aprende qué enfoque es más rápido, más flexible y el mejor para tu carga de trabajo en Spark.

PySpark DataFrame a Lista: 5 mejores formas de convertir filas y columnas a listas Python

Aprende a convertir DataFrames de PySpark en listas de Python usando múltiples métodos, incluyendo toPandas(), collect(), operaciones rdd y las mejores prácticas para grandes conjuntos de datos.

Joins y Broadcast en PySpark: Elige el Join Correcto Siempre

Entiende los joins inner/left/right/full/semi/anti en PySpark, maneja columnas duplicadas y sabe cuándo hacer broadcast de tablas pequeñas para corregir skew.

PySpark groupBy y agregación: resúmenes precisos a escala

Aprende patrones prácticos de groupBy en PySpark, multi-agregación con alias, count distinct vs approx, manejo de grupos null y ordenación de resultados.

PySpark Leer y Escribir CSV y Parquet: Guía de IO Confiable

Aprende a cargar y guardar CSV y Parquet en PySpark con control de esquema, delimitadores, manejo de encabezados, modos de guardado y salida particionada.

PySpark Manejo de Null y NA: Recetas prácticas de limpieza

Usa fillna, dropna, na.replace, coalesce y comparaciones null-safe para gestionar datos faltantes en DataFrames de PySpark sin sorpresas.

PySpark Select, Filter y withColumn: Recetas básicas de DataFrame

Domina la selección de columnas, el filtrado de filas, las columnas condicionales, los atajos con selectExpr y los patrones de casteo seguro en DataFrames de PySpark.

¿Cómo convertir una columna de PySpark DataFrame en una lista de Python?

Aprende cómo convertir fácilmente una columna de PySpark DataFrame en una lista de Python utilizando varios enfoques. Lee esta guía completa para encontrar la mejor manera de extraer los datos que necesitas de tu dataframe de PySpark.

Eliminar columna en PySpark: Eliminar columnas eficientemente de DataFrames

Descubre cómo eliminar de manera eficiente una columna en un DataFrame de PySpark. Esta guía proporciona explicaciones detalladas, definiciones y ejemplos para ayudarte a dominar la eliminación de columnas en PySpark.