Skip to content

Comment créer des graphiques de distribution personnalisés avec Seaborn Displot

Updated on

La visualisation des données est un aspect crucial de l'analyse des données et de l'apprentissage automatique. Elle nous permet de comprendre des ensembles de données complexes et d'en tirer des informations. Une des bibliothèques les plus populaires pour la visualisation des données en Python est Seaborn, et l'un de ses outils les plus puissants est la fonction displot. Ce tutoriel vous guidera à travers le processus de création et de personnalisation de graphiques de distribution à l'aide de la fonction displot de Seaborn en Python.

Le displot de Seaborn est une fonction polyvalente qui peut créer une variété de graphiques de distribution, y compris des histogrammes, des graphiques KDE et des graphiques ECDF. C'est un outil flexible et puissant qui peut traiter à la fois des données univariées et bivariées, ce qui en fait une partie essentielle de l'arsenal de tout analyste de données. Que vous soyez un scientifique des données chevronné ou un débutant qui débute, comprendre comment utiliser displot efficacement peut considérablement améliorer vos compétences en visualisation des données.

Qu'est-ce que Displot dans Seaborn ?

Le displot de Seaborn est une fonction conçue pour visualiser la distribution des données. C'est une fonction flexible qui peut créer une variété de graphiques de distribution, y compris des histogrammes, des graphiques KDE et des graphiques ECDF. La fonction displot fait partie du module "relational" de Seaborn, qui est conçu pour visualiser les relations statistiques entre les variables.

La syntaxe de base pour displot est la suivante :

seaborn.displot(data, x=None, y=None, hue=None, row=None, col=None, weights=None, kind='hist', rug=False, rug_kws=None, log_scale=None, legend=True, palette=None, hue_order=None, hue_norm=None, color=None, col_wrap=None, row_order=None, col_order=None, height=5, aspect=1, facet_kws=None, **kwargs)

La fonction displot prend un certain nombre d'arguments qui vous permettent de personnaliser l'apparence et le comportement de vos graphiques. Par exemple, vous pouvez spécifier le type de graphique (histogramme, KDE ou ECDF), les variables à représenter (x et y) et la variable à utiliser pour le regroupement des couleurs (hue).

Différence entre Distplot et Displot

Bien que distplot et displot soient tous deux des fonctions de Seaborn utilisées pour visualiser les distributions de données, il y a quelques différences clés entre les deux. La fonction distplot était la principale fonction utilisée pour créer des histogrammes et des graphiques KDE dans les versions antérieures de Seaborn. Cependant, distplot a été déprécié dans les versions récentes de Seaborn, et displot est maintenant la fonction recommandée pour créer des graphiques de distribution.

La fonction displot est plus flexible et puissante que distplot. Elle peut traiter à la fois des données univariées et bivariées, et elle peut créer une plus grande variété de graphiques, y compris des histogrammes, des graphiques KDE, des graphiques ECDF et plus encore. De plus, displot prend en charge l'utilisation de FacetGrid, qui vous permet de créer plusieurs sous-graphiques dans une seule figure.

Est-ce que Seaborn est déprécié ?

Non, Seaborn n'est pas déprécié. Cependant, certaines fonctions de Seaborn, comme distplot, ont été dépréciées dans les versions récentes. La fonction displot est maintenant la fonction recommandée pour créer des graphiques de distribution dans Seaborn. Elle est plus flexible et puissante que distplot, et elle est conçue pour fonctionner correctement avec le reste du module "relational" de Seaborn.

Exemples de Seaborn Displot

Pour mieux comprendre comment utiliser displot, examinons quelques exemples. Nous commencerons par importer les bibliothèques nécessaires et charger un ensemble de données :

import seaborn as sns
import matplotlib.pyplot as plt
 
## Charger l'ensemble de données penguins
penguins = sns.load_dataset("penguins")

Exemple 1 : Histogramme de base

L'utilisation la plus simple de displot consiste à créer un histogramme d'une seule variable. Voici comment vous pouvez créer un histogramme de la variable flipper_length_mm de l'ensemble de données penguins :

sns.displot(data=penguins, x="flipper_length_mm")
plt.show()

Cela créera un histogramme de base avec une détermination automatique de la taille des bacs. Vous pouvez personnaliser le nombre de bacs en utilisant le paramètre bins :

sns.displot(data=penguins, x="flipper_length_mm", bins=20)
plt.show()

Exemple 2 : Histogramme avec KDE

Vous pouvez également ajouter un graphique d'estimation de densité Kernel (KDE) à votre histogramme en utilisant le paramètre kde :

sns.displot(data=penguins, x="flipper_length_mm", kde=True)
plt.show()

Le graphique KDE est une version lissée de l'histogramme, et il peut vous donner une meilleure idée de la forme de la distribution des données.

Exemple 3 : Histogramme avec FacetGrid

Une des fonctionnalités les plus puissantes de displot est sa capacité à créer plusieurs sous-graphiques dans une seule figure à l'aide de FacetGrid. Vous pouvez créer un sous-graphique séparé pour chaque espèce de pingouin de cette manière :

sns.displot(data=penguins, x="flipper_length_mm", col="species")
plt.show()

Cela créera un histogramme séparé pour chaque espèce de pingouin, vous permettant de comparer les distributions des longueurs de nageoires entre les espèces.

Personnalisation de Seaborn Displot

La fonction displot de Seaborn offre une variété d'options pour personnaliser l'apparence de vos graphiques. Vous pouvez contrôler la couleur du graphique, la taille et le style des bacs, l'apparence du graphique KDE, et bien plus encore.

Exemple 4 : Personnalisation de la couleur et des bacs

Pour changer la couleur du graphique, vous pouvez utiliser le paramètre color. Par exemple, pour créer un histogramme rouge, vous pouvez faire :

sns.displot(data=penguins, x="flipper_length_mm", color="red")
plt.show()

Vous pouvez également personnaliser la taille et le style des bacs à l'aide des paramètres binwidth et binrange. Par exemple, pour créer un histogramme avec des bacs de largeur 5 et une plage de 150 à 250, vous pouvez faire :

sns.displot(data=penguins, x="flipper_length_mm", binwidth=5, binrange=(150, 250))
plt.show()

Exemple 5: Personnalisation du graphique KDE

Si vous utilisez un graphique KDE, vous pouvez personnaliser son apparence en utilisant le paramètre kde_kws. Par exemple, pour créer un graphique KDE avec une ligne plus épaisse et une couleur différente, vous pouvez faire :

sns.displot(data=penguins, x="flipper_length_mm", kde=True, kde_kws={"color": "green", "lw": 3})
plt.show()

Seaborn Displot avec plusieurs colonnes

L'une des fonctionnalités les plus puissantes de la fonction displot de Seaborn est sa capacité à gérer plusieurs colonnes de données. Cela vous permet de créer des visualisations complexes qui peuvent révéler des motifs et des relations intéressants dans vos données.

Exemple 6: Displot avec deux variables

Pour créer un displot avec deux variables, vous pouvez spécifier à la fois les paramètres x et y. Par exemple, pour créer un histogramme bivarié des variables flipper_length_mm et body_mass_g, vous pouvez faire :

sns.displot(data=penguins, x="flipper_length_mm", y="body_mass_g")
plt.show()

Cela créera un histogramme en 2D où l'intensité de la couleur représente le nombre de points de données dans chaque bin.

Exemple 7: Displot avec Hue

Vous pouvez également utiliser le paramètre hue pour regrouper vos données selon une autre variable. Par exemple, pour créer un histogramme de flipper_length_mm regroupé par species, vous pouvez faire :

sns.displot(data=penguins, x="flipper_length_mm", hue="species")
plt.show()

Cela créera un histogramme séparé pour chaque espèce, avec des couleurs différentes pour chaque espèce.

Questions fréquemment posées

  1. Qu'est-ce que la fonction displot dans Seaborn ?

La fonction displot dans Seaborn est une fonction flexible conçue pour visualiser la distribution des données. Elle peut créer une variété de graphiques de distribution, y compris des histogrammes, des graphiques KDE et des graphiques ECDF.

  1. Comment puis-je personnaliser l'apparence de mon displot ?

Vous pouvez personnaliser l'apparence de votre displot en utilisant divers paramètres, tels que la couleur du graphique (color), la taille et la plage des bins (binwidth et binrange), et l'apparence du graphique KDE (kde_kws).

  1. Puis-je utiliser displot avec plusieurs colonnes de données ?

Oui, displot peut gérer plusieurs colonnes de données. Vous pouvez spécifier à la fois les paramètres x et y pour créer un histogramme bivarié, ou utiliser le paramètre hue pour regrouper vos données selon une autre variable.