Ajouter une nouvelle colonne à un DataFrame Pandas : Méthodes et techniques
Updated on
Travailler avec des DataFrames est une partie essentielle de l'analyse de données et de la science des données. Pandas est une bibliothèque largement utilisée pour la manipulation et l'analyse de données, et elle fournit un moyen facile à utiliser et flexible pour travailler avec des DataFrames. Un DataFrame est une structure de données étiquetées bidimensionnelle avec des colonnes de différents types. Il ressemble à une feuille de calcul ou à une table SQL, mais avec plus de puissance et de flexibilité. Dans cet article, nous apprendrons comment ajouter une nouvelle colonne à un DataFrame Pandas existant. Nous discuterons également des différentes méthodes et techniques pour insérer une nouvelle colonne dans un DataFrame Pandas.
Vous voulez rapidement créer des visualisations de données en Python ?
PyGWalker est un projet Python open source qui peut vous aider à accélérer le workflow d'analyse et de visualisation des données directement dans un environnement basé sur Jupyter Notebook.
PyGWalker (opens in a new tab) transforme votre DataFrame Pandas (ou DataFrame Polars) en une interface visuelle où vous pouvez faire glisser-déposer des variables pour créer des graphiques facilement. Utilisez simplement le code suivant :
pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)
Vous pouvez exécuter PyGWalker dès maintenant avec ces notebooks en ligne :
Et n'oubliez pas de nous donner une ⭐️ sur GitHub !
Qu'est-ce qu'un DataFrame Pandas ?
Un DataFrame Pandas est une structure de données bidimensionnelle avec des axes étiquetés. Il ressemble à une feuille de calcul ou à une table SQL, mais avec plus de puissance et de flexibilité. Un DataFrame peut être créé à partir de différents formats de données en entrée tels que CSV, Excel, une base de données SQL, etc. Un DataFrame peut être manipulé et analysé à l'aide de différentes méthodes et fonctions fournies par la bibliothèque Pandas.
Comment ajouter une nouvelle colonne à un DataFrame Pandas ?
Pour ajouter une nouvelle colonne à un DataFrame Pandas existant, nous pouvons utiliser différentes méthodes et techniques. La façon la plus courante d'ajouter une nouvelle colonne est d'utiliser une simple affectation. Voyons un exemple.
Supposons que nous ayons un DataFrame avec deux colonnes : 'Name' et 'Age'.
import pandas as pd
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40]
}
df = pd.DataFrame(data)
print(df)
Résultat :
Name Age
0 Alice 25
1 Bob 30
2 Charlie 35
3 David 40
Maintenant, nous voulons ajouter une nouvelle colonne 'Salary' au DataFrame. Nous pouvons utiliser une simple affectation comme suit.
df['Salary'] = [50000, 60000, 70000, 80000]
print(df)
Résultat :
Name Age Salary
0 Alice 25 50000
1 Bob 30 60000
2 Charlie 35 70000
3 David 40 80000
Nous pouvons voir qu'une nouvelle colonne 'Salary' a été ajoutée au DataFrame.
Différentes méthodes pour insérer une nouvelle colonne dans un DataFrame Pandas
Il existe plusieurs méthodes et techniques pour insérer une nouvelle colonne dans un DataFrame Pandas. Discutons-les une par une.
Méthode 1: Simple affectation
Comme nous l'avons vu dans l'exemple précédent, nous pouvons ajouter une nouvelle colonne à un DataFrame en utilisant une simple affectation. Nous pouvons assigner une liste ou un tableau numpy à un nouveau nom de colonne dans le DataFrame comme indiqué ci-dessous.
df['NouvelleColonne'] = [1, 2, 3, 4]
Méthode 2: Méthode insert
Une autre façon d'insérer une nouvelle colonne dans un DataFrame Pandas est d'utiliser la méthode insert
. La méthode insert
prend trois arguments : loc
, column
et value
. loc
est l'indice de la colonne où nous voulons insérer la nouvelle colonne. column
est le nom de la nouvelle colonne, et value
est la valeur que nous voulons assigner à la nouvelle colonne.
df.insert(loc=1, column='NouvelleColonne', value=[1, 2, 3, 4])
Méthode 3: Méthode concatenate
Nous pouvons également concaténer deux DataFrames le long de l'axe 1 pour ajouter une nouvelle colonne à un DataFrame existant. La nouvelle colonne sera ajoutée à droite du DataFrame existant. La méthode concat
prend deux DataFrames en tant qu'arguments et les concatène le long de l'axe 1.
df2 = pd.DataFrame({'NouvelleColonne': [1, 2, 3, 4]})
df = pd.concat([df, df2], axis=1)
Méthode 4: Méthode assign
La méthode assign
nous permet de créer une nouvelle colonne dans un DataFrame et de renvoyer un nouveau DataFrame avec la nouvelle colonne. Elle prend un dictionnaire comme argument, où chaque clé représente un nouveau nom de colonne et chaque valeur représente les valeurs de la nouvelle colonne.
df = df.assign(NouvelleColonne=[1, 2, 3, 4])
Puis-je remplacer une colonne existante dans un DataFrame Pandas tout en ajoutant une nouvelle colonne ?
Oui, nous pouvons remplacer une colonne existante dans un DataFrame Pandas tout en ajoutant une nouvelle colonne. Lorsque nous attribuons des valeurs à une colonne, les valeurs existantes de cette colonne sont remplacées par les nouvelles valeurs.
df['Age'] = [26, 31, 36, 41]
Comment puis-je insérer des colonnes à un emplacement spécifié dans un DataFrame Pandas ?
Nous pouvons insérer des colonnes à un emplacement spécifié dans un DataFrame Pandas en utilisant la méthode insert
. Le paramètre loc
spécifie la position à laquelle insérer la colonne. Nous pouvons utiliser l'index entier de la colonne pour spécifier sa position.
df.insert(2, 'NouvelleColonne', [1, 2, 3, 4])
Nous pouvons également utiliser le nom de la colonne pour spécifier sa position.
df.insert(df.columns.get_loc("Age"), 'NouvelleColonne', [1, 2, 3, 4])
Conclusion
Dans cet article, nous avons appris comment ajouter une nouvelle colonne à un DataFrame Pandas existant. Nous avons discuté des différentes méthodes et techniques pour insérer une nouvelle colonne dans un DataFrame Pandas, y compris l'affectation simple, la méthode insert
, la méthode concatenate
et la méthode assign
. Nous avons également discuté de la façon de remplacer une colonne existante tout en ajoutant une nouvelle colonne et de la façon d'insérer des colonnes à un emplacement spécifié dans un DataFrame Pandas. En utilisant ces techniques, vous pouvez manipuler efficacement et efficacement vos DataFrames.