Comment résumer facilement les dataframes Pandas

Name: Rajiv Chandra

Mis à jour le 07/05/2023

Pandas est un outil puissant dans la boîte à outils des scientifiques des données, en particulier lorsqu'il s'agit de la tâche de résumer les dataframes. Comprendre ces méthodes vous permet non seulement de digérer de grands ensembles de données, mais aussi de fournir des informations de manière plus efficace. Ici, nous explorerons les différentes fonctions utilisées à cette fin, en fournissant de nombreux exemples pour plus de clarté.

Nous utiliserons le jeu de données des ventes de supermarchés de Kaggle à des fins de démonstration.

# Importer la bibliothèque
import pandas as pd
 
# Importer le fichier
ss = pd.read_csv('supermarket_sales.csv')
 
# Prévisualiser les données
ss.head()

Envie de créer rapidement des visualisations de données en Python ?

PyGWalker est un projet Python Open Source qui peut aider à accélérer l'analyse et la visualisation des données directement dans un environnement basé sur un notebook Jupyter.

PyGWalker (opens in a new tab) transforme votre dataframe Pandas (ou Polars) en une interface visuelle où vous pouvez faire glisser-déposer des variables pour créer facilement des graphiques. Il vous suffit d'utiliser le code suivant :

pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)

Vous pouvez exécuter PyGWalker dès maintenant avec ces notebooks en ligne :

Et n'oubliez pas de nous donner une ⭐️ sur GitHub !

Exécuter PyGWalker dans un notebook Kaggle (opens in a new tab)	Exécuter PyGWalker dans Google Colab (opens in a new tab)	Donner une ⭐️ à PyGWalker sur GitHub (opens in a new tab)
(opens in a new tab)	(opens in a new tab)	(opens in a new tab)

Résumé concis avec info()

La méthode info() fournit un résumé concis d'un dataframe. Elle est particulièrement utile lors du nettoyage des données, car elle affiche le nombre d'enregistrements, les noms des colonnes, les types de données, la plage de l'index et l'utilisation de la mémoire.

ss.info()

Statistiques descriptives avec describe()

describe() génère des statistiques descriptives qui vous donnent un aperçu de la dispersion et de la forme de la distribution d'un ensemble de données, en excluant les valeurs NaN.

ss.describe()

Les résultats par défaut sont pour les types numériques, mais le paramètre include peut afficher des statistiques pour différents types de données dans le dataframe.

ss.describe(include=['object', 'int'])

Comptage des valeurs uniques avec value_counts()

value_counts() renvoie le décompte des valeurs uniques pour une série spécifiée, en excluant les valeurs NaN par défaut.

ss['City'].value_counts()

Comptage des observations distinctes avec nunique()

La fonction nunique() compte les observations distinctes et peut être utilisée à la fois pour un dataframe ou une série.

ss.nunique()

Somme des valeurs avec sum()

sum() renvoie la somme des valeurs pour l'axe demandé et fonctionne avec les dataframes et les séries.

ss.sum(numeric_only=True)

Nombre d'observations non-NA/null avec count()

La fonction count() renvoie le nombre d'observations non-NA/null. Elle peut être appliquée à la fois sur les dataframes et les séries.

ss.count(numeric_only=True)

Minimum, maximum, moyenne et médiane

Ces fonctions (min(), max(), mean() et median()) renvoient respectivement le minimum, le maximum, la moyenne et la médiane des valeurs.

ss.max()
ss.min()
ss.mean()
ss.median()

Appliquer plusieurs opérations d'agrégation avec agg()

La fonction agg() vous permet d'appliquer plusieurs opérations d'agrégation au même ensemble de données sur l'axe spécifié.

ss.agg(['count', 'min', 'max', 'mean'])

Regroupement des données avec groupby()

groupby() vous permet de regrouper les données ayant les mêmes valeurs en lignes de résumé en appliquant des fonctions d'agrégation telles que la somme, le maximum, le minimum.

ss.groupby('City').sum()
ss.groupby(['City', 'Customer type']).sum()

Pour regrouper par une valeur spécifique et appliquer également plusieurs types d'agrégation sur le même ensemble de données, vous pouvez utiliser la fonction agg().

ss.groupby('City').agg({'Total': ['count', 'min', 'max', 'mean'], 'Rating': 'mean'})

Conclusion

Résumer les dataframes Pandas peut sembler complexe à première vue, mais avec une bonne maîtrise de ces techniques, vous pouvez exploiter pleinement le potentiel de vos ensembles de données. En maîtrisant ces méthodes, vous pouvez rationaliser votre processus d'analyse des données et fournir des informations de manière claire et concise.