Skip to content
Voltar para todos os tópicos

PySpark

Veja tutoriais práticos, referências e correções dentro deste tópico.

Artigos10

PySpark UDF vs Pandas UDF vs mapInPandas: Qual Você Deve Usar?

Compare PySpark UDF, Pandas UDF e mapInPandas com exemplos e um framework de decisão. Saiba qual abordagem é mais rápida, mais flexível e melhor para o seu workload no Spark.

Tutorial de PySpark UDF: Como usar User Defined Functions (com exemplos)

Aprenda a escrever e usar PySpark UDFs (User Defined Functions) com exemplos amigáveis para iniciantes, tipos de retorno, tratamento de null, registro em SQL e alternativas mais rápidas como funções embutidas e Pandas UDFs.

PySpark DataFrame para Lista: 5 melhores formas de converter linhas e colunas em listas Python

Aprenda a converter DataFrames do PySpark em listas Python usando vários métodos, incluindo toPandas(), collect(), operações rdd e as melhores práticas para grandes conjuntos de dados.

Joins e Broadcast em PySpark: Escolha Sempre o Join Certo

Entenda joins inner/left/right/full/semi/anti em PySpark, trate nomes de colunas duplicadas e saiba quando fazer broadcast de tabelas pequenas para corrigir skew.

PySpark groupBy e Aggregation: Resumos Precisos em Escala

Aprenda padrões práticos de groupBy no PySpark, multi‑agregação com aliases, count distinct vs approx, tratamento de grupos nulos e ordenação de resultados.

PySpark Select, Filter e withColumn: Receitas Essenciais de DataFrame

Domine a seleção de colunas, filtragem de linhas, colunas condicionais, atalhos com selectExpr e padrões seguros de casting em DataFrames PySpark.

PySpark: Ler e Escrever CSV e Parquet – Guia Confiável de IO

Aprenda a carregar e salvar CSV e Parquet no PySpark com controle de schema, delimitadores, tratamento de header, modos de gravação e saída particionada.

PySpark: Lidando com Null e NA – Receitas Práticas de Limpeza

Use fillna, dropna, na.replace, coalesce e comparações null-safe para gerenciar dados ausentes em DataFrames PySpark sem surpresas.

Como converter uma coluna de um DataFrame PySpark em uma lista em Python?

Aprenda a converter facilmente uma coluna de um DataFrame PySpark em uma lista em Python usando várias abordagens. Leia este guia abrangente para encontrar a melhor maneira de extrair os dados que você precisa do seu dataframe PySpark.

PySpark Drop Column: Remover Colunas Eficientemente de DataFrames

Descubra como remover eficientemente uma coluna em um DataFrame PySpark. Este guia fornece explicações detalhadas, definições e exemplos para ajudá-lo a dominar a remoção de colunas no PySpark.