XGBoost: la potencia de los algoritmos de aprendizaje automático

Name: Rajiv Chandra

Updated on 1/6/2023

El aprendizaje automático está lleno de algoritmos potentes, pero pocos han tenido un impacto transformador como el Boosting de Gradiente Extremo, comúnmente conocido como XGBoost. Adéntrate en el mundo de XGBoost y desenmaraña sus misterios.

¿Quieres crear rápidamente visualizaciones de datos desde Python Pandas Dataframe sin código?

PyGWalker es una biblioteca de Python para Análisis Exploratorio de Datos con Visualización. PyGWalker (opens in a new tab) puede simplificar tu flujo de trabajo de análisis y visualización de datos de Jupyter Notebook convirtiendo tus pandas dataframe (y polars dataframe) en una Interfaz de Usuario al estilo Tableau para la exploración visual.

(opens in a new tab)

¿Qué es XGBoost?

XGBoost (opens in a new tab) (Boosting de Gradiente Extremo) es una biblioteca de boosting distribuido optimizado diseñado para ser altamente eficiente, flexible y portátil. XGBoost ofrece un boosting de árbol paralelo (también conocido como GBDT, GBM) que resuelve muchos problemas de ciencia de datos de manera rápida y precisa. Sin embargo, el nombre XGBoost en realidad se refiere al objetivo de ingeniería de empujar el límite de los recursos de cálculo para los algoritmos de árbol impulsado. Por lo tanto, la "X" en el nombre significa "Extremo".

¿Qué es XGB?

XGB es solo otro término para XGBoost, utilizado indistintamente en el mundo de la ciencia de datos. Representa la misma implementación de aprendizaje automático. XGBoost (Boosting de Gradiente Extremo) es una implementación sólida y sofisticada del algoritmo de boosting de gradiente. Se basa en el principio de impulsar los modelos débiles utilizando la arquitectura de descenso de gradiente. XGBoost, específicamente, logra brillar gracias a su escalabilidad en todos los escenarios.

El algoritmo de XGBoost es también increíblemente versátil. Además de problemas de regresión, clasificación binaria y de ordenación, también admite funciones objetivas definidas por el usuario que pueden utilizarse para resolver problemas de clasificación multiclase.

¿Cómo funciona XGBoost?

La magia de XGBoost radica en su implementación de los algoritmos de boosting de gradiente. Estos algoritmos trabajan combinando las predicciones de varios modelos más simples, también conocidos como "modelos débiles", para crear un "modelo fuerte" más preciso y sólido. XGBoost emplea específicamente árboles de decisión como modelos débiles.

Aquí te presentamos una explicación simplificada de XGBoost, paso a paso:

Al principio, XGBoost construye un modelo simple (un árbol), realizando predicciones sobre los datos de entrenamiento.
Luego, calcula los errores de estas predicciones en comparación con los valores reales.
XGBoost construye otro árbol para predecir y corregir estos errores.
El proceso se repite, con cada nuevo árbol construido para corregir los errores del anterior. Esto se llama "boosting".
Finalmente, se suman todas las predicciones de los árboles para hacer las predicciones finales.

El "gradiente" en el boosting de gradiente se refiere al uso del descenso de gradiente del algoritmo, una técnica de optimización numérica, para minimizar los errores del modelo. Esto le da a XGBoost su poder y flexibilidad, permitiéndole optimizar una variedad de funciones de pérdida definidas por el usuario y manejar una amplia variedad de problemas de regresión y clasificación.

Predicción y Regresión de XGBoost

XGBoost brilla tanto en tareas de clasificación, donde el objetivo es predecir un resultado categórico, como en tareas de regresión, donde predecimos un resultado continuo. Un predictor de XGBoost es el modelo final que realiza predicciones en función de la combinación aprendida de modelos débiles.

Para ilustrar, consideremos un ejemplo simple de regresión de XGBoost en Python:

import xgboost as xgb
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
 
# Cargar los datos
boston = load_boston()
X, y = boston.data, boston.target
 
# Dividimos los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)
 
# Inicializamos y ajustamos el modelo
xg_reg = xgb.XGBRegressor(objective ='reg:squarederror', colsample_bytree = 0.3, learning_rate = 0.1, max_depth = 5, alpha = 10, n_estimators = 10)
xg_reg.fit(X_train, y_train)
 
# Predecimos
preds = xg_reg.predict(X_test)
 
# Calculamos RMSE
rmse = np.sqrt(mean_squared_error(y_test, preds))
print("RMSE: %f" % (rmse))

Este código ilustra cómo XGBoost puede ser utilizado para tareas de regresión. La flexibilidad de XGBoost se extiende a varios dominios y lo ha convertido en una herramienta poderosa en el kit de herramientas de los científicos de datos.

XGBoost Explicado: Profundización

Contextualizado en el aprendizaje automático, una pregunta común que surge es "¿cómo funciona XGBoost?". Para entender esto, es fundamental darse cuenta de que XGBoost se basa en el marco de trabajo del boosting. Boosting es una técnica de conjunto donde se agregan nuevos modelos para corregir los errores cometidos por los modelos existentes.

La idea clave detrás de XGBoost es que podemos utilizar el marco de trabajo de boosting en el corazón de AdaBoost y aplicarlo a cualquier función de pérdida diferenciable. Esto hace que XGBoost sea aplicable a una amplia variedad de problemas de regresión y clasificación.

La principal ventaja de XGBoost es su velocidad de ejecución superior y su rendimiento del modelo. También tiene regularización incorporada que ayuda a prevenir el sobreajuste. XGBoost también es capaz de manejar valores faltantes y proporciona varias formas de tratar valores atípicos. Es compatible con el procesamiento en paralelo, es altamente flexible y portátil. Puede ejecutarse en Hadoop, AWS, Azure, GCE y muchas otras plataformas.

Sin embargo, como cualquier otro algoritmo, XGBoost tiene sus debilidades. Puede ser bastante intensivo en memoria y la complejidad computacional puede ser alta para conjuntos de datos muy grandes. También carece de interpretabilidad en comparación con modelos más simples como la regresión lineal o los árboles de decisión.

Conclusión

En conclusión, XGBoost es un algoritmo altamente eficiente, flexible y poderoso, capaz de resolver muchos problemas de aprendizaje complejos. Entenderlo y saber cómo ajustar sus hiperparámetros puede convertirte en un científico de datos mucho más efectivo.