Skip to content

Renomeando colunas no Pandas: Um guia completo

Updated on

A análise de dados é uma tarefa crucial no mundo orientado por dados atual. Ela requer a limpeza, organização e transformação de dados brutos em um formato compreensível e significativo. Uma das tarefas mais fundamentais na análise de dados é a renomeação de colunas, pois isso torna os dados mais informativos e compreensíveis.

Neste tutorial, vamos explorar como renomear colunas em um DataFrame do Pandas usando diferentes métodos. Discutiremos as melhores práticas, dicas e truques para tornar sua análise de dados mais clara e concisa. Vamos começar!

Quer criar rapidamente visualizações de dados de um DataFrame do Pandas com nenhum código?

PyGWalker é uma biblioteca Python para Análise Exploratória de Dados com Visualização. PyGWalker (opens in a new tab) pode simplificar seu fluxo de trabalho de análise de dados e visualização de dados do Jupyter Notebook, transformando seu dataframe do pandas (e dataframe do polars) em uma interface do usuário do estilo do Tableau para exploração visual.

PyGWalker para visualização de dados (opens in a new tab)

O que é Renomear Coluna no DataFrame?

Antes de mergulharmos na parte do código, vamos primeiro entender o que é a renomeação de colunas em um DataFrame do Pandas e por que isso é importante.

Em um DataFrame do Pandas, as colunas são nomeadas como identificadores exclusivos que distinguem uma coluna da outra. Às vezes, esses identificadores exclusivos não são informativos ou inconsistentes com os dados, o que pode levar à confusão e interpretação incorreta. Nesses casos, a renomeação de colunas ajuda a tornar os dados mais informativos e compreensíveis.

A renomeação de colunas é um processo de mudar o nome de uma ou mais colunas em um DataFrame do Pandas. Isso é feito selecionado os rótulos das colunas ou seus índices. Isso melhora a legibilidade dos dados e ajuda a entender as relações entre diferentes colunas.

Como Renomear uma Coluna em um DataFrame do Pandas?

O Pandas fornece várias maneiras de renomear colunas em um DataFrame. Vamos explorar os métodos mais comumente usados e as melhores práticas para renomear colunas.

Renomeando uma Única Coluna

Vamos começar com o método mais básico de renomear uma única coluna em um DataFrame do Pandas. Vamos usar o método rename para fazer isso.

# Criar um DataFrame de exemplo
import pandas as pd
 
data = {'Nome': ['John', 'Alex', 'Peter'],
        'Idade': [25, 24, 28],
        'Gênero': ['Masculino', 'Masculino', 'Masculino']}
 
df = pd.DataFrame(data)
 
# Renomear a coluna 'Idade' para 'Anos'
df = df.rename(columns={'Idade': 'Anos'})
 
# Imprimir o DataFrame
print(df) 

Output:

    Nome  Anos   Gênero
0   John     25   Masculino
1   Alex     24   Masculino
2  Peter     28   Masculino

Aqui, criamos um DataFrame de exemplo com as colunas Nome, Idade e Gênero. Usamos o método rename para mudar o nome da coluna Idade para Anos. O método rename recebe um dicionário como entrada, onde as chaves são os antigos nomes das colunas e os valores são os novos nomes das colunas.

Renomeando Múltiplas Colunas

Renomear uma única coluna é fácil, mas e se quisermos renomear várias colunas ao mesmo tempo? Nesses casos, podemos usar o mesmo método rename com um dicionário de nomes antigos e novos de colunas.

# Criar um DataFrame de exemplo
import pandas as pd
 
data = {'Nome': ['John', 'Alex', 'Peter'],
        'Idade': [25, 24, 28],
        'Departamento': ['TI', 'RH', 'Marketing']}
 
df = pd.DataFrame(data)
 
# Renomear as colunas 'Idade' e 'Departamento'
df = df.rename(columns={'Idade': 'Anos', 'Departamento': 'Dept'})
 
# Imprimir o DataFrame
print(df) 

Output:

    Nome  Anos       Dept
0   John     25         TI
1   Alex     24         RH
2  Peter     28  Marketing

Aqui, renomeamos duas colunas, Idade para Anos e Departamento para Dept, usando o método rename com um dicionário de nomes antigos e novos de colunas.

Renomeando Colunas usando o Método set_axis

Outra forma de renomear colunas em um DataFrame do Pandas é usando o método set_axis. É um método flexível e conveniente que permite renomear as colunas sem criar uma nova cópia do DataFrame.

# Criar um DataFrame de exemplo
import pandas as pd
 
data = {'Nome': ['John', 'Alex', 'Peter'],
        'Idade': [25, 24, 28],
        'Departamento': ['TI', 'RH', 'Marketing']}
 
df = pd.DataFrame(data)
 
# Renomear as colunas 'Idade' e 'Departamento' usando o método set_axis
df.set_axis(['Nome', 'Anos', 'Dept'], axis=1, inplace=True)
 
# Imprimir o DataFrame
print(df) 

Output:

    Nome  Anos       Dept
0   John     25         TI
1   Alex     24         RH
2  Peter     28  Marketing

Aqui, renomeamos duas colunas, Idade para Anos e Departamento para Dept, usando o método set_axis no próprio DataFrame, sem criar uma nova cópia.O seguinte código em mdx com YAML na frente pode ser usado para renomear as colunas selecionando seu índice ou rótulo.

# Crie um DataFrame de exemplo
import pandas as pd
 
data = {'Name': ['John', 'Alex', 'Peter'],
        'Age': [25, 24, 28],
        'Gender': ['Male', 'Male', 'Male']}
 
df = pd.DataFrame(data)
 
# Renomeie as colunas 'Age' e 'Gender' por índice
df.columns = df.columns.set_axis(['a', 'Years', 'b'], axis=1, inplace=False)
 
# Imprima o DataFrame
print(df) 

Saída:

    Name  Years     b
0   John     25  Male
1   Alex     24  Male
2  Peter     28  Male

Aqui, usamos o método set_axis para renomear as colunas com posições de índice. O método usa três parâmetros - labels, axis e inplace. Definimos os labels como os novos nomes das colunas e o axis como 1, que representa as colunas. O parâmetro inplace é definido como False para retornar um novo DataFrame.

Renomeando colunas usando List Comprehension

Também podemos renomear colunas no Pandas DataFrame usando list comprehension. É um método simples e elegante que permite renomear várias colunas de uma só vez.

# Crie um DataFrame de exemplo
import pandas as pd
 
data = {'Name': ['John', 'Alex', 'Peter'],
        'Age': [25, 24, 28],
        'Department': ['IT', 'HR', 'Marketing']}
 
df = pd.DataFrame(data)
 
# Renomeie as colunas 'Age' e 'Department' usando list comprehension
df.columns = [col.replace('_', ' ').title() for col in df.columns]
 
# Imprima o DataFrame
print(df) 

Saída:

    Name  Age  Department
0   John   25          IT
1   Alex   24          HR
2  Peter   28   Marketing

Aqui, usamos a list comprehension para renomear as colunas, substituindo os underscores por espaços e convertendo a primeira letra para maiúscula usando o método title().

DataFrame Renomear por Índice

Também é possível renomear uma coluna por índice no Pandas DataFrame. Podemos usar o método rename com um dicionário de posições de coluna antigas e novas.

# Crie um DataFrame de exemplo
import pandas as pd
 
data = {'Name': ['John', 'Alex', 'Peter'],
        'Age': [25, 24, 28],
        'Department': ['IT', 'HR', 'Marketing']}
 
df = pd.DataFrame(data)
 
# Renomeie a coluna '2' para 'Dept' por índice
df = df.rename(columns={2: 'Dept'})
 
# Imprima o DataFrame
print(df) 

Saída:

    Name  Age       Dept
0   John   25         IT
1   Alex   24         HR
2  Peter   28  Marketing

Aqui, usamos o método rename para renomear a coluna com a posição do índice 2 para Dept.

DataFrame Renomear Coluna com Lista

Também podemos renomear colunas no Pandas DataFrame selecionando uma lista de nomes de colunas. Vejamos como é feito.

# Crie um DataFrame de exemplo
import pandas as pd
 
data = {'Name': ['John', 'Alex', 'Peter'],
        'Age': [25, 24, 28],
        'Department': ['IT', 'HR', 'Marketing']}
 
df = pd.DataFrame(data)
 
# Renomeie as colunas 'Name' e 'Department' usando uma lista de nomes de colunas
df.columns = ['ID', 'Years', 'Dept']
 
# Imprima o DataFrame
print(df) 

Saída:

     ID  Years       Dept
0   John     25         IT
1   Alex     24         HR
2  Peter     28  Marketing

Aqui, usamos uma lista de nomes de colunas para renomear as colunas Name e Department para ID e Dept, respectivamente.

Conclusão

Neste tutorial, aprendemos como renomear colunas no Pandas DataFrame usando diferentes métodos - o método rename, o método set_axis, list comprehension, renomeando por índice e renomeando com uma lista. Também exploramos as melhores práticas, dicas e truques para tornar sua análise de dados mais organizada e informativa.

A renomeação de colunas é uma etapa crítica na análise de dados, pois aprimora a legibilidade dos dados e ajuda a entender as relações entre diferentes colunas. Usando os métodos discutidos acima, você pode facilmente renomear colunas no Pandas DataFrame e tornar sua análise de dados mais eficaz e eficiente.

Esperamos que este tutorial tenha sido útil e informativo. Boa programação!


Links:

Perguntas frequentes

  1. Como renomear uma coluna em um DataFrame?

    Para renomear uma coluna em um DataFrame, é possível utilizar o método rename() do Pandas. Esse método permite especificar um dicionário ou um mapeamento que relacione os nomes antigos das colunas com os novos nomes das colunas. Com esse método, é possível renomear uma coluna individual ou múltiplas colunas de uma só vez.

  2. Como renomear uma coluna pelo índice da coluna no Pandas?

    No Pandas, é possível renomear uma coluna pelo índice da coluna utilizando o parâmetro columns do método rename(). Deve-se passar um dicionário onde as chaves são os índices das colunas atuais e os valores são os novos nomes das colunas. Com esse método, é possível renomear as colunas com base na posição delas no DataFrame.

  3. Como renomear múltiplas colunas em um DataFrame?

    Para renomear múltiplas colunas em um DataFrame, pode-se utilizar o método rename() com o parâmetro columns. Deve-se passar um dicionário onde as chaves são os nomes das colunas atuais e os valores são os novos nomes das colunas. Esse método permite renomear várias colunas ao mesmo tempo. Além disso, proporciona flexibilidade para renomear seletivamente as colunas com base em critérios específicos.