Skip to content

Exportando um DataFrame Pandas para CSV: Um Guia Completo

Updated on

Como analista de dados ou cientista, talvez você trabalhe com conjuntos de dados massivos que requerem organização, manipulação e análise adequadas. Em Python, a biblioteca Pandas oferece ferramentas poderosas para manipulação e manipulação de dados, especialmente com DataFrames. Depois de limpar e estruturar seus dados para se adequarem a um DataFrame, o próximo passo é salvá-los em um formato adequado para armazenamento e compartilhamento.

Um dos formatos de arquivo mais populares para dados tabulares é o CSV, ou valores separados por vírgula. Neste guia abrangente, vamos guiá-lo pelo processo de exportar DataFrames Pandas para arquivos CSV. Se você é novo nessa tarefa ou deseja melhorar suas habilidades, temos tudo o que você precisa saber.

Quer criar rapidamente visualizações de dados a partir de um DataFrame Pandas em Python sem escrever código?

PyGWalker é uma biblioteca Python para Análise Exploratória de Dados com Visualização. PyGWalker (opens in a new tab) pode simplificar sua análise de dados e fluxo de trabalho de visualização de dados do Jupyter Notebook, transformando seu dataframe pandas (e dataframe polars) em uma interface de usuário semelhante ao Tableau para exploração visual.

PyGWalker para visualização de dados (opens in a new tab)

Por que Exportar DataFrames Pandas para CSV?

Exportar seus DataFrames para arquivos CSV oferece diversas vantagens, incluindo:

  • Armazenamento eficiente: Arquivos CSV requerem espaço mínimo de armazenamento em comparação com outros formatos como Excel ou JSON.
  • Facilidade de uso: Arquivos CSV são fáceis de criar e ler com diversos aplicativos de software, incluindo planilhas e editores de texto.
  • Flexibilidade: Você pode usar arquivos CSV com diferentes bancos de dados e linguagens de programação como parte do fluxo de trabalho de seus dados.
  • Padronização: Arquivos CSV fornecem um formato padronizado para compartilhar e trocar dados entre usuários ou organizações.

Esses benefícios tornam o CSV uma escolha popular para armazenamento e compartilhamento de dados. Nosso guia ajudará você a dominar o processo de exportar DataFrames Pandas para arquivos CSV usando o método .to_csv() embutido na biblioteca.

Exportando DataFrame para CSV no Pandas

O método .to_csv() é um dos métodos mais comuns da biblioteca Pandas utilizados para exportar DataFrames para arquivos CSV. Este método possui vários parâmetros que permitem personalizar o processo de exportação.

import pandas as pd 
 
# Crie um DataFrame de exemplo
df = pd.DataFrame({"Nome": ["João", "Maria", "Pedro"], "Idade": [25, 30, 28], "Salário": [60000, 80000, 75000]})
 
# Exporte o DataFrame para CSV
df.to_csv('amostra.csv', index=False)

Neste exemplo, criamos um DataFrame simples com três colunas: Nome, Idade e Salário. Em seguida, utilizamos o método .to_csv() para salvar o DataFrame como um arquivo CSV chamado 'amostra.csv'.

O parâmetro index especifica se deve ou não incluir o índice do DataFrame no arquivo CSV. Por padrão, esse parâmetro é definido como True. Quando definido como False, o Pandas exclui o índice do DataFrame do arquivo CSV salvo.

Parâmetros no método .to_csv()

Além do parâmetro index, o método .to_csv() possui vários outros que permitem modificar o processo de exportação de acordo com suas necessidades:

  • path_or_buf: Uma string especificando o caminho do arquivo ou buffer para salvar o DataFrame. Este parâmetro é obrigatório.
  • sep: Uma string especificando o separador usado no arquivo CSV. Por padrão, este parâmetro é definido como uma vírgula (','). Você pode especificar outros separadores como ponto e vírgula (';'), tabulação ('\t') ou outros.
  • header: Um valor booleano ou lista de string(s) para especificar a(s) linha(s) de cabeçalho no arquivo CSV salvo. Por padrão, este parâmetro é definido como True e a linha de cabeçalho inclui os nomes das colunas do DataFrame. Se você definir este parâmetro como False, o arquivo CSV exportado não conterá cabeçalhos.
  • index: Um valor booleano especificando se deve ou não incluir o índice do DataFrame no arquivo CSV. Por padrão, este parâmetro é definido como True.
  • mode: Uma string especificando o modo de escrita do arquivo. Por padrão, o Pandas define este parâmetro como 'w' para modo de escrita, o que substitui quaisquer arquivos existentes. Você pode alterar para 'a' para modo de adição, que adiciona o conteúdo do DataFrame a um arquivo CSV existente.
  • decimal: Uma string especificando o caractere usado como separador decimal no arquivo CSV. Por padrão, este parâmetro é definido como '.'.
  • date_format: Uma string especificando o formato de quaisquer objetos de data e hora no DataFrame para serem salvos como strings no arquivo CSV. Por padrão, este parâmetro é definido como None.
  • quotechar: Uma string especificando o caractere usado para citar campos que contêm caracteres especiais como vírgulas, aspas ou quebras de linha. Por padrão, este parâmetro é definido como '"'.

Métodos Alternativos para Exportar DataFrames

Embora a exportação de DataFrames Pandas para arquivos CSV usando o método .to_csv() seja uma forma comum e eficiente de salvar seus dados, existem outras opções disponíveis. Alguns deles incluem:

Exportando para Excel

Você pode usar a classe pd.ExcelWriter() para criar um arquivo Excel e exportar um DataFrame para ele usando o método .to_excel(). A vantagem de usar este método é que você pode criar várias planilhas em um único arquivo Excel.

# Crie um arquivo Excel e um objeto writer
writer = pd.ExcelWriter('amostra.xlsx')
 
# Exporte para o Excel
df.to_excel(writer, sheet_name='Planilha1', index=False)
 
# Salve o arquivo Excel e feche o objeto writer
writer.save()

Exportando para JSON

Você pode salvar um DataFrame Pandas em um arquivo JSON usando o método .to_json(). Este método cria uma representação em string do DataFrame no formato JSON.

# Exportar DataFrame para JSON
df.to_json('amostra.json')

Exportando para HDF5

HDF5 (Hierarchical Data Format) é um formato de arquivo de alto desempenho comumente usado para armazenar conjuntos de dados grandes. O Pandas fornece a classe HDFStore para salvar DataFrames em HDF5.

# Criar um arquivo HDF5 e armazenar o DataFrame
store = pd.HDFStore('amostra.h5')
store['df'] = df
 
# Fechar o arquivo HDF5
store.close()

Exportando para Banco de Dados SQL

O Pandas também permite exportar um DataFrame diretamente para um banco de dados SQL usando o método .to_sql(). Você precisará criar um objeto de engine do SQLAlchemy, que se comunicará com o banco de dados.

from sqlalchemy import create_engine
 
# Criar um objeto de engine do banco de dados
engine = create_engine('sqlite:///amostra.db', echo=False)
 
# Exportar para o banco de dados SQL
df.to_sql('amostra', con=engine, if_exists='replace', index=False)

Pickling

Por fim, você pode salvar seu DataFrame do Pandas como um objeto pickled, que é uma representação serializada do DataFrame em formato binário.

# Exportar DataFrame como um objeto pickled
df.to_pickle('amostra.pkl')

Conclusão

Em conclusão, exportar DataFrames do Pandas para arquivos CSV é uma tarefa essencial para armazenar e compartilhar dados tabulares com outras pessoas. O método .to_csv() na biblioteca Pandas permite que você salve DataFrames em formato CSV com opções flexíveis, como selecionar separadores, adicionar carimbos de data/hora e lidar com erros de codificação.

Não se esqueça de conferir nossos outros tutoriais de Python para aprimorar suas habilidades!