Skip to content

Como Usar a Função Mean do Pandas

Updated on

O Pandas, uma biblioteca crítica em Python, equipa cientistas de dados com ferramentas potentes para manipular dados. Uma dessas ferramentas, frequentemente usada, é a função Mean do Pandas. Por definição, a função Mean calcula a média dos números em um determinado conjunto de dados, mas suas aplicações em análise de dados são muito mais profundas.

Quer criar visualizações de dados rapidamente em Python?

PyGWalker é um projeto de código aberto em Python que pode ajudar a acelerar o fluxo de análise e visualização de dados diretamente em ambientes baseados no Jupyter Notebook.

PyGWalker (opens in a new tab) transforma seu Dataframe Pandas (ou Polars Dataframe) em uma interface visual em que você pode arrastar e soltar variáveis para criar gráficos com facilidade. Basta usar o código abaixo:

pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)

Você pode executar o PyGWalker agora com esses notebooks on-line:

E não se esqueça de dar uma ⭐️ no GitHub!

Executar o PyGWalker no Notebook do Kaggle (opens in a new tab)Executar o PyGWalker no Google Colab (opens in a new tab)Dê uma ⭐️ ao PyGWalker no GitHub (opens in a new tab)
Executar o PyGWalker no Notebook do Kaggle (opens in a new tab)Executar o PyGWalker no Google Colab (opens in a new tab)Dê uma ⭐️ ao PyGWalker no GitHub (opens in a new tab)

Entendendo a Função Mean do Pandas

A função Mean do pandas pode ser aplicada tanto em um DataFrame quanto em uma Serie. Quando aplicada a um DataFrame, retorna uma série com a média ao longo de um eixo especificado, e quando usada em uma Series, produz um valor escalar, essencialmente um único número.

Sintaxe Básica:

pandas.DataFrame.mean()
pandas.Series.mean()

Compreender a média, a mediana e a moda é essencial em qualquer área de dados. A escolha do eixo (linhas ou colunas) para o cálculo da média destaca sua flexibilidade.

Parâmetros Vitais da Função Mean do Pandas

Para que a função mean seja usada corretamente, é essencial entender seus parâmetros:

  1. axis: O parâmetro de eixo é uma escolha entre linhas (axis='columns' ou 1) e colunas (axis='index' ou 0) para calcular a média.

  2. skipna (o padrão é True): Este parâmetro decide se inclui ou exclui valores NA / nulos ao calcular o resultado. Se definido como False e um NA estiver presente nos dados, a função de média retornará "NaN".

  3. level: Isso é usado ao lidar com um DataFrame de vários índices. Você pode passar o nome (ou int) do nível para o cálculo da média.

  4. numeric_only: Este parâmetro é útil quando o seu DataFrame contém tipos de dados mistos. Geralmente é aconselhável deixá-lo como padrão para começar.

Mergulhando em exemplos

Vamos dar uma olhada em como a função Mean do Pandas opera por meio de alguns exemplos.

Uso básico:

import pandas as pd
 
# Criando um dataframe simples
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})
 
print(df.mean())

No exemplo acima, estamos calculando a média de cada coluna. A saída será uma série com a média das colunas A, B e C.

Usando o parâmetro de eixo:

print(df.mean(axis='columns'))

Aqui, calculamos a média ao longo das linhas. A saída será uma série com a média de cada linha.

Usando o parâmetro skipna:

df = pd.DataFrame({
    'A': [1, 2, 3, None],
    'B': [4, None, 6, 7],
    'C': [7, 8, None, 9]
})
 
print(df.mean(skipna=False))

Neste exemplo, estamos incluindo valores NA em nosso cálculo, definindo skipna como False. Como temos valores NA em nossos dados, a função média retornará "NaN" para a média.

Conclusão

Em conclusão, a função Mean do Pandas é uma ferramenta poderosa para análise de dados. Permite flexibilidade na escolha do eixo para o cálculo e tratamento de valores nulos. Ao entender seus parâmetros e seu uso, pode-se liberar todo o seu potencial. Pratique através de exemplos e consistência.