Skip to content

Tri du DataFrame Pandas : Exemples et Astuces

Updated on

Le DataFrame Pandas est un outil puissant pour l'analyse des données en Python. Il vous permet de stocker et de manipuler de grandes quantités de données facilement. Le tri des données est une opération courante qui est utile pour explorer et visualiser les données. Dans ce tutoriel, nous verrons comment trier les données dans un DataFrame Pandas, y compris le tri par colonne, par plusieurs colonnes, par index, et plus encore.

Vous voulez créer rapidement des visualisations de données en Python ?

PyGWalker est un projet Python Open Source qui peut vous aider à accélérer le processus d'analyse et de visualisation des données directement dans un environnement basé sur Jupyter Notebook.

PyGWalker (opens in a new tab) transforme votre DataFrame Pandas (ou votre DataFrame Polars) en une interface utilisateur visuelle où vous pouvez faire glisser et déposer des variables pour créer des graphiques facilement. Utilisez simplement le code suivant :

pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)

Vous pouvez exécuter PyGWalker dès maintenant avec ces cahiers en ligne :

Et n'oubliez pas de nous donner une ⭐️ sur GitHub !

Exécuter PyGWalker dans un cahier Kaggle (opens in a new tab)Exécuter PyGWalker dans un cahier Google Colab (opens in a new tab)Donner une ⭐️ a PyGWalker sur GitHub (opens in a new tab)
Exécuter PyGWalker dans un cahier Kaggle (opens in a new tab)Exécuter PyGWalker dans un cahier Google Colab (opens in a new tab)Exécuter PyGWalker dans un cahier Google Colab (opens in a new tab)

Qu'est-ce qu'un DataFrame Pandas ?

Un DataFrame Pandas est une structure de données tabulaire à deux dimensions qui contient des lignes et des colonnes. Il peut contenir une variété de types de données tels que des nombres, des chaînes de caractères et des dates. Vous pouvez le considérer comme une feuille de calcul ou une table SQL. C'est un moyen pratique de stocker et de manipuler des données avec Python.

Comment installer Pandas en Python ?

Avant de plonger dans le tri d'un DataFrame Pandas, vous devez vous assurer que Pandas est installé sur votre système. Vous pouvez le faire en exécutant la commande suivante dans votre terminal ou votre invite de commandes :

pip install pandas

Cela installera la dernière version de Pandas sur votre système.

Comment créer un DataFrame Pandas ?

Il existe plusieurs façons de créer un DataFrame Pandas. L'une des façons les plus courantes est de le créer à partir d'un dictionnaire de listes. Voici un exemple :

import pandas as pd
 
data = {'Name': ['John', 'Jane', 'Bob', 'Lisa'],
        'Age': [25, 30, 45, 23],
        'Salary': [50000, 60000, 80000, 40000]}
 
df = pd.DataFrame(data)
 
print(df)

Sortie :

   Name  Age  Salary
0  John   25   50000
1  Jane   30   60000
2   Bob   45   80000
3  Lisa   23   40000

Dans cet exemple, nous avons créé un dictionnaire de trois listes, où chaque liste représente une colonne du DataFrame. Nous avons ensuite utilisé la fonction pd.DataFrame() pour créer un DataFrame à partir du dictionnaire.

Quelle est la différence entre le tri par ordre croissant et le tri par ordre décroissant ?

Avant de commencer à trier un DataFrame Pandas, il est important de comprendre la différence entre le tri par ordre croissant et le tri par ordre décroissant. Le tri par ordre croissant signifie que les valeurs seront triées du plus bas au plus haut. Le tri par ordre décroissant signifie que les valeurs seront triées du plus haut au plus bas.

Comment trier un DataFrame Pandas par colonne ?

Le tri d'un DataFrame Pandas par colonne est une opération courante. Vous pouvez utiliser la méthode sort_values() pour trier un DataFrame par une seule colonne. Voici un exemple :

import pandas as pd
 
data = {'Name': ['John', 'Jane', 'Bob', 'Lisa'],
        'Age': [25, 30, 45, 23],
        'Salary': [50000, 60000, 80000, 40000]}
 
df = pd.DataFrame(data)
 
# tri par colonne Age par ordre croissant
df.sort_values('Age', ascending=True, inplace=True)
 
print(df)

Sortie :

   Name  Age  Salary
3  Lisa   23   40000
0  John   25   50000
1  Jane   30   60000
2   Bob   45   80000

Dans cet exemple, nous avons trié le DataFrame par la colonne "Age" par ordre croissant en utilisant la méthode sort_values(). Nous avons défini le paramètre ascending à True pour trier par ordre croissant. Le paramètre inplace est défini à True pour modifier le DataFrame d'origine.

Puis-je trier un DataFrame Pandas par plusieurs colonnes ?

Oui, vous pouvez trier un DataFrame Pandas par plusieurs colonnes. Vous devez passer une liste de noms de colonnes à la méthode sort_values(). Voici un exemple :

import pandas as pd
 
data = {'Name': ['John', 'Jane', 'Bob', 'Lisa'],
        'Age': [25, 30, 45, 23],
        'Salary': [50000, 60000, 80000, 40000]}
 
df = pd.DataFrame(data)
 
# tri par colonne Age par ordre croissant, puis par colonne Salary par ordre décroissant
df.sort_values(['Age', 'Salary'], ascending=[True, False], inplace=True)
 
print(df)

Sortie :

   Name  Age  Salary
3  Lisa   23   40000
0  John   25   50000
1  Jane   30   60000
2   Bob   45   80000

Dans cet exemple, nous avons trié le DataFrame par la colonne "Age" en ordre croissant, puis par la colonne "Salary" en ordre décroissant. Nous avons passé une liste de noms de colonnes à la méthode sort_values() et une liste de valeurs booléennes au paramètre ascending pour spécifier la direction de tri pour chaque colonne.

Comment trier un DataFrame Pandas par indice ?

Vous pouvez également trier un DataFrame Pandas par son indice en utilisant la méthode sort_index(). Voici un exemple :

import pandas as pd
 
data = {'Name': ['John', 'Jane', 'Bob', 'Lisa'],
        'Age': [25, 30, 45, 23],
        'Salary': [50000, 60000, 80000, 40000]}
 
df = pd.DataFrame(data)
 
# trier par indice en ordre décroissant
df.sort_index(ascending=False, inplace=True)
 
print(df)

Résultat :

   Name  Age  Salary
3  Lisa   23   40000
2   Bob   45   80000
1  Jane   30   60000
0  John   25   50000

Dans cet exemple, nous avons trié le DataFrame par son indice en ordre décroissant en utilisant la méthode sort_index(). Le paramètre ascending est défini sur False pour trier par ordre décroissant.

Comment trier un DataFrame Pandas par date ?

Le tri d'un DataFrame Pandas par date est une opération courante dans l'analyse de séries temporelles. Vous pouvez utiliser la méthode sort_values() avec le type de données datetime. Voici un exemple :

import pandas as pd
 
data = {'Date': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04'],
        'Sales': [100, 200, 150, 300]}
 
df = pd.DataFrame(data)
 
# convertir la colonne Date en type de données datetime
df['Date'] = pd.to_datetime(df['Date'])
 
# trier par colonne Date en ordre croissant
df.sort_values('Date', ascending=True, inplace=True)
 
print(df)

Résultat :

        Date  Sales
0 2022-01-01    100
1 2022-01-02    200
2 2022-01-03    150
3 2022-01-04    300

Dans cet exemple, nous avons créé un DataFrame avec une colonne "Date" et une colonne "Sales". Nous avons utilisé la méthode to_datetime() pour convertir la colonne "Date" en type de données datetime. Nous avons ensuite utilisé la méthode sort_values() pour trier le DataFrame par la colonne "Date" en ordre croissant.

Trier les valeurs d'un DataFrame Pandas

La méthode sort_values() est la méthode principale pour trier un DataFrame Pandas. Elle peut trier un DataFrame par une seule colonne ou par plusieurs colonnes. Elle prend également en charge le tri par indice et par date.

Conclusion

Le tri des données dans un DataFrame Pandas est une opération essentielle pour l'analyse et la visualisation des données. Dans ce tutoriel, nous avons vu comment trier un DataFrame Pandas par colonne, par plusieurs colonnes, par indice et par date. Nous avons également discuté de la différence entre le tri par ordre croissant et décroissant. En maîtrisant ces techniques, vous pourrez manipuler les données comme un pro.