Skip to content

Exporter un DataFrame Pandas au format CSV : Un guide complet

Updated on

En tant qu'analyste ou scientifique des données, vous pouvez travailler sur de vastes ensembles de données qui nécessitent une organisation, une manipulation et une analyse appropriées. En Python, la bibliothèque Pandas offre des outils puissants pour le traitement et la manipulation des données, notamment avec les DataFrames. Une fois que vous avez nettoyé et structuré vos données pour les adapter à un DataFrame, la prochaine étape consiste à les enregistrer dans un format adapté au stockage et au partage.

L'un des formats de fichier les plus populaires pour les données tabulaires est le CSV, ou valeurs séparées par des virgules. Dans ce guide complet, nous vous guiderons à travers le processus d'exportation des DataFrames Pandas vers des fichiers CSV. Que vous soyez novice dans cette tâche ou que vous souhaitiez améliorer vos compétences, nous avons tout ce dont vous avez besoin.

Vous souhaitez créer rapidement une visualisation des données à partir du DataFrame Python Pandas sans code ?

PyGWalker est une bibliothèque Python pour l'analyse exploratoire de données avec visualisation. PyGWalker (opens in a new tab) peut simplifier votre flux de travail d'analyse et de visualisation de données dans Jupyter Notebook, en transformant votre DataFrame pandas (et votre DataFrame Polars) en une interface utilisateur de type Tableau pour l'exploration visuelle.

PyGWalker pour la visualisation de données (opens in a new tab)

Pourquoi exporter des DataFrames Pandas au format CSV ?

L'exportation de vos DataFrames vers des fichiers CSV offre de nombreux avantages, notamment :

  • Stockage efficace : Les fichiers CSV nécessitent un espace de stockage minimal par rapport à d'autres formats comme Excel ou JSON.
  • Facilité d'utilisation : Les fichiers CSV sont faciles à créer et à lire avec plusieurs applications logicielles, y compris les tableurs et les éditeurs de texte.
  • Flexibilité : Vous pouvez utiliser des fichiers CSV avec différentes bases de données et langages de programmation dans le cadre de votre flux de données.
  • Normalisation : Les fichiers CSV fournissent un format normalisé pour le partage et l'échange de données entre utilisateurs ou organisations.

Ces avantages font du CSV un choix populaire pour le stockage et le partage de données. Notre guide vous aidera à maîtriser le processus d'exportation des DataFrames Pandas vers des fichiers CSV à l'aide de la méthode intégrée .to_csv() de la bibliothèque.

Exporter un DataFrame au format CSV avec Pandas

La méthode .to_csv() est l'une des méthodes les plus couramment utilisées de la bibliothèque Pandas pour exporter des DataFrames vers des fichiers CSV. Cette méthode possède plusieurs paramètres qui vous permettent de personnaliser le processus d'exportation.

import pandas as pd
 
# Créer un DataFrame d'exemple
df = pd.DataFrame({"Nom": ["John", "Jane", "Peter"], "Âge": [25, 30, 28], "Salaire": [60000, 80000, 75000]})
 
# Exporter le DataFrame au format CSV
df.to_csv('exemple.csv', index=False)

Dans cet exemple, nous avons créé un DataFrame simple avec trois colonnes : Nom, Âge et Salaire. Ensuite, nous avons utilisé la méthode .to_csv() pour enregistrer le DataFrame dans un fichier CSV nommé 'exemple.csv'.

Le paramètre index spécifie s'il faut inclure ou non l'index du DataFrame dans le fichier CSV. Par défaut, ce paramètre est défini sur True. Lorsqu'il est défini sur False, Pandas exclut l'index du DataFrame du fichier CSV enregistré.

Paramètres de la méthode .to_csv()

Outre le paramètre index, la méthode .to_csv() possède plusieurs autres paramètres qui vous permettent de modifier le processus d'exportation selon vos besoins :

  • path_or_buf : Une chaîne de caractères spécifiant le chemin du fichier ou le tampon dans lequel enregistrer le DataFrame. Ce paramètre est obligatoire.
  • sep : Une chaîne de caractères spécifiant le séparateur utilisé dans le fichier CSV. Par défaut, ce paramètre est défini sur une virgule (','). Vous pouvez spécifier d'autres séparateurs comme un point-virgule (';'), un caractère de tabulation ('\t') ou d'autres.
  • header : Une valeur booléenne ou une liste de chaîne(s) pour spécifier les lignes d'en-tête dans le fichier CSV enregistré. Par défaut, ce paramètre est défini sur True et la ligne d'en-tête inclut les noms de colonnes du DataFrame. Si vous définissez ce paramètre sur False, le fichier CSV exporté ne contiendra pas d'en-têtes.
  • index : Une valeur booléenne spécifiant s'il faut inclure ou non l'index du DataFrame dans le fichier CSV. Par défaut, ce paramètre est défini sur True.
  • mode : Une chaîne de caractères spécifiant le mode d'écriture du fichier. Par défaut, Pandas définit ce paramètre sur 'w' pour le mode d'écriture, qui écrase les fichiers existants. Vous pouvez le changer en 'a' pour le mode d'ajout, qui ajoute le contenu du DataFrame à un fichier CSV existant.
  • decimal : Une chaîne de caractères spécifiant le caractère utilisé comme séparateur décimal dans le fichier CSV. Par défaut, ce paramètre est défini sur '.'.
  • date_format : Une chaîne de caractères spécifiant le format des objets de date-heure dans le DataFrame à enregistrer sous forme de chaînes dans le fichier CSV. Par défaut, ce paramètre est défini sur None.
  • quotechar : Une chaîne de caractères spécifiant le caractère utilisé pour citer les champs contenant des caractères spéciaux comme des virgules, des guillemets ou des sauts de ligne. Par défaut, ce paramètre est défini sur '"'.

Méthodes alternatives pour l'exportation de DataFrames

Bien que l'exportation de DataFrames Pandas vers des fichiers CSV à l'aide de la méthode .to_csv() soit une façon courante et efficace de sauvegarder vos données, il existe d'autres options disponibles. Certaines d'entre elles comprennent :

Exportation vers Excel

Vous pouvez utiliser la classe pd.ExcelWriter() pour créer un fichier Excel et exporter un DataFrame vers celui-ci à l'aide de la méthode .to_excel(). L'avantage d'utiliser cette méthode est que vous pouvez créer plusieurs feuilles de calcul dans un seul fichier Excel.

# Créer un fichier Excel et un objet écrivain
writer = pd.ExcelWriter('exemple.xlsx')
 
# Exporter vers Excel
df.to_excel(writer, sheet_name='Feuille1', index=False)
 
# Enregistrer le fichier Excel et fermer l'objet écrivain
writer.save()

Exportation vers JSON

Vous pouvez enregistrer un DataFrame Pandas dans un fichier JSON à l'aide de la méthode .to_json(). Cette méthode crée une représentation sous forme de chaîne de caractères du DataFrame au format JSON.

# Export DataFrame to JSON
df.to_json('sample.json')

Exportation vers HDF5

HDF5 (Hierarchical Data Format) est un format de fichier hautes performances couramment utilisé pour stocker de grands ensembles de données. Pandas fournit la classe HDFStore pour sauvegarder les DataFrames au format HDF5.

# Créer un fichier HDF5 et stocker le DataFrame
store = pd.HDFStore('sample.h5')
store['df'] = df
 
# Fermer le fichier HDF5
store.close()

Exportation vers une base de données SQL

Pandas vous permet également d'exporter un DataFrame directement vers une base de données SQL en utilisant la méthode .to_sql(). Vous devrez créer un objet engine SQLAlchemy, qui communiquera avec la base de données.

from sqlalchemy import create_engine
 
# Créer un objet engine de base de données
engine = create_engine('sqlite:///sample.db', echo=False)
 
# Exporter vers la base de données SQL
df.to_sql('sample', con=engine, if_exists='replace', index=False)

Pickling

Enfin, vous pouvez enregistrer votre DataFrame Pandas sous forme d'objet picklé, qui est une représentation sérialisée du DataFrame au format binaire.

# Exporter le DataFrame sous forme d'objet picklé
df.to_pickle('sample.pkl')

Conclusion

En conclusion, l'exportation des DataFrames Pandas vers des fichiers CSV est une tâche essentielle pour stocker et partager des données tabulaires avec d'autres personnes. La méthode .to_csv() de la bibliothèque Pandas vous permet de sauvegarder des DataFrames au format CSV avec des options flexibles telles que la sélection des séparateurs, l'ajout de timestamps et la gestion des erreurs d'encodage.

N'oubliez pas de consulter nos autres tutoriels Python pour améliorer vos compétences!