Cómo Resumir Fácilmente Dataframes de Pandas

Name: Rajiv Chandra

Actualizado el 7/5/2023

Pandas es una herramienta poderosa en el arsenal del científico de datos, especialmente cuando se trata de la tarea de resumir dataframes. Comprender estos métodos no solo te ayuda a digerir conjuntos de datos grandes, sino que también te permite ofrecer ideas de manera más efectiva. Aquí exploraremos las diferentes funciones utilizadas con este propósito, proporcionando numerosos ejemplos para mayor claridad.

Utilizaremos el conjunto de datos de Supermarket Sales de Kaggle con fines de demostración.

# Importar la librería
import pandas as pd
 
# Importar el archivo
ss = pd.read_csv('supermarket_sales.csv')
 
# Previsualizar los datos
ss.head()

¿Quieres crear visualizaciones de datos rápidamente en Python?

PyGWalker es un proyecto de Python de código abierto que puede ayudar a acelerar el análisis y visualización de datos directamente dentro del entorno de Jupyter Notebook.

PyGWalker (opens in a new tab) convierte tu dataframe de Pandas (o dataframe de Polars) en una interfaz de usuario visual donde puedes arrastrar y soltar variables para crear gráficos con facilidad. Simplemente usa el siguiente código:

pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)

Puedes ejecutar PyGWalker ahora mismo con estas notebooks en línea:

¡Y no olvides darle una ⭐️ en GitHub!

Ejecutar PyGWalker en la notebook de Kaggle (opens in a new tab)	Ejecutar PyGWalker en Google Colab (opens in a new tab)	Darle una ⭐️ a PyGWalker en GitHub (opens in a new tab)
(opens in a new tab)	(opens in a new tab)	(opens in a new tab)

Resumen Conciso con info()

El método info() proporciona un resumen conciso de un dataframe. Es especialmente útil durante la limpieza de datos, ya que muestra recuentos de registros, nombres de columnas, tipos de datos, rango de índice y uso de memoria.

ss.info()

Estadísticas Descriptivas con describe()

describe() genera estadísticas descriptivas que muestran la dispersión y la forma de una distribución de datos, excluyendo valores NaN.

ss.describe()

Los resultados por defecto son para tipos numéricos, pero el parámetro include puede mostrar estadísticas para diferentes tipos de datos en el dataframe.

ss.describe(include=['object', 'int'])

Recuento de Valores Únicos con value_counts()

value_counts() devuelve el recuento de valores únicos para una serie especificada, excluyendo valores NaN de forma predeterminada.

ss['City'].value_counts()

Recuento de Observaciones Distintas con nunique()

La función nunique() cuenta observaciones distintas y se puede utilizar tanto para un dataframe como para una serie.

ss.nunique()

Suma de Valores con sum()

sum() devuelve la suma de los valores para el eje solicitado y funciona tanto con dataframes como con series.

ss.sum(numeric_only=True)

Número de Observaciones No NA/null con count()

La función count() devuelve el número de observaciones no NA/null. Se puede aplicar tanto a dataframes como a series.

ss.count(numeric_only=True)

Mínimo, Máximo, Media y Mediana

Estas funciones (min(), max(), mean() y median()) devuelven el mínimo, máximo, media y mediana de los valores respectivamente.

ss.max()
ss.min()
ss.mean()
ss.median()

Aplicar Varias Operaciones de Agregación con agg()

La función agg() te permite aplicar más de una operación de agregación al mismo conjunto de datos en el eje especificado.

ss.agg(['count', 'min', 'max', 'mean'])

Agrupación de Datos con groupby()

groupby() te permite agrupar datos con los mismos valores en filas de resumen mediante la aplicación de funciones de agregación como suma, máximo, mínimo.

ss.groupby('City').sum()
ss.groupby(['City', 'Customer type']).sum()

Para agrupar por un valor específico y también aplicar más de un tipo de agregación al mismo conjunto de datos, puedes usar la función agg().

ss.groupby('City').agg({'Total': ['count', 'min', 'max', 'mean'], 'Rating': 'mean'})

Conclusión

Resumir dataframes de Pandas puede parecer complejo a primera vista, pero con un sólido dominio de estas técnicas, puedes desbloquear todo el potencial de tus conjuntos de datos. Al dominar estos métodos, puedes agilizar tu proceso de análisis de datos y presentar ideas de manera clara y concisa.