Análisis causal
RATH proporciona un flujo de trabajo visual y sin código para encontrar y explorar relaciones causales en tus datos. En lugar de detenerte en simples correlaciones, puedes descubrir causas potenciales, probar hipótesis y construir mejores modelos de machine learning, todo a partir de un grafo causal interactivo.
En esta guía, vas a:
- Entender qué es el análisis causal y cuándo utilizarlo.
- Aprender el flujo de trabajo paso a paso para ejecutar análisis causal en RATH.
- Recorrer un ejemplo concreto usando el dataset de Kaggle “Diabetes”.
- Explorar herramientas avanzadas como análisis comparativo, inspección mutua, pruebas de predicción y edición manual de modelos causales.
¿Qué es el análisis causal?
El análisis causal es el proceso de examinar las relaciones entre variables para determinar si los cambios en una variable causan cambios en otra, y no solo si se mueven juntas.
En la práctica, esto implica:
- Identificar variables que pueden influir en un resultado de interés.
- Construir un modelo causal (a menudo un grafo dirigido) que codifique suposiciones o relaciones aprendidas.
- Usar técnicas estadísticas y algorítmicas para estimar la fuerza y la dirección de estos efectos.
- Probar y refinar hipótesis, en lugar de depender únicamente de la correlación o de la importancia de variables.
Como la mayoría de los datos del mundo real son observacionales (no proceden de experimentos controlados), el análisis causal no garantiza una “causalidad verdadera”, pero ayuda a generar y validar hipótesis mucho más sólidas e interpretables que la correlación por sí sola.
Cómo realizar análisis causal con RATH
RATH envuelve técnicas complejas de descubrimiento causal en un flujo de trabajo interactivo. A grandes rasgos, debes:
-
Conectar y preparar tus datos
- Importar tu dataset en RATH.
- Limpiar registros inválidos y asegurarte de que los campos clave tengan el tipo correcto (numérico, categórico, etc.).
-
Configurar campos y dependencias opcionales
- Elegir los campos que se deben incluir en el modelo causal.
- Opcionalmente declarar dependencias funcionales conocidas (por ejemplo, campos derivados, fórmulas) para que RATH las respete durante el descubrimiento.
-
Ejecutar el descubrimiento causal
- Iniciar el flujo de trabajo de Causal Analysis y dejar que RATH infiera un grafo causal a partir de tus datos.
-
Explorar y validar relaciones
- Utilizar herramientas como Field Insights, Manual Exploration y Mutual Inspection para comprobar y refinar el modelo descubierto frente a tu conocimiento del dominio.
-
Construir y probar modelos predictivos
- Usar Prediction Test para crear modelos de machine learning basados en el grafo causal y compararlos con conjuntos de variables alternativos.
-
Editar y finalizar el modelo causal
- Ajustar manualmente el modelo cuando tengas conocimiento adicional, datos ruidosos o factores ausentes.
Las siguientes secciones recorren este flujo de trabajo usando un ejemplo real.
Caso de estudio: análisis causal del "Diabetes Database" de Kaggle
Como ejemplo concreto, vamos a explorar el “Diabetes Database” de Kaggle (opens in a new tab) usando RATH. Nuestro objetivo es entender qué factores afectan con más fuerza al Outcome (diagnóstico de diabetes) y cómo interactúan entre sí.
Preparar y limpiar el dataset
- Importa el dataset en RATH.
- Elimina registros inválidos donde
BMI,BloodPressuresoSkinThicknesssean iguales a0.
En la pestaña DataSource:- Haz clic en Clean Method.
- Elige drop null records para filtrar las filas con valores inválidos.
Una vez que los datos estén limpios, abre el menú desplegable a la derecha del botón Start Analysis y elige Causal Analysis para iniciar el flujo de trabajo.
Paso 1: Configuración de datos
En Data Configuration, elige qué campos incluir en el análisis causal.
- Selecciona todas las variables relevantes (por ejemplo,
Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,AgeyOutcome). - Opcionalmente excluye campos que sepas que son irrelevantes o demasiado ruidosos.
Cuando termines, haz clic en Next para continuar.

Consejo: Comienza con todas las variables potencialmente relevantes y luego refina más adelante basándote en tu modelo causal y en los resultados de predicción.
Paso 2: (Opcional) Dependencias funcionales
En muchos datasets, algunos campos se derivan de otros (por ejemplo, razones calculadas, IDs formateados o campos generados con fórmulas SQL). Declarar estas relaciones por adelantado ayuda a que RATH evite aprender enlaces causales engañosos.
En el paso Functional Dependencies puedes:
- Permitir que RATH analice tus datos automáticamente y sugiera dependencias.
- Especificar relaciones de forma manual cuando ya las conozcas (por ejemplo,
TotalAmount = Quantity × UnitPrice).
RATH analiza los valores de diferentes variables y calcula posibles relaciones funcionales. Puedes aceptar, editar o añadir tus propias dependencias.

Mejor práctica:
Si parte de tus datos se genera mediante expresiones regulares o fórmulas SQL, declara sus dependencias aquí. Si estos campos derivados se generan dentro de RATH, a menudo no necesitas hacer nada: RATH los gestiona automáticamente.
Paso 3: Modelo causal
Haz clic en Causal Discovery para que RATH infiera un modelo causal a partir de los campos configurados.
La siguiente captura muestra un resultado típico de descubrimiento causal para el dataset de diabetes:

En este ejemplo, algunas de las relaciones clave son:
Glucose→Outcome
Niveles más altos de glucosa aumentan la probabilidad de un diagnóstico positivo de diabetes.Insulin→Glucose→Outcome
La insulina afecta a la glucosa, que a su vez afecta al resultado de diabetes.Age→Outcome(y a veces influida por factores de salud relacionados)
La edad contribuye a la probabilidad de tener diabetes.
El grafo interactivo es tu espacio de trabajo central:
- Haz clic en un nodo para resaltar sus causas y efectos directos.
- Examina el grosor de las aristas o los indicadores de fuerza para entender qué tan fuerte es una relación.
- Usa el panel de la derecha para acceder a distintas herramientas (Field Insights, Manual Exploration, Mutual Inspection, Prediction Test) centradas en la variable seleccionada.

Paso 3.1: Análisis comparativo con Field Insights
El análisis comparativo te permite comparar dos grupos — por ejemplo, pacientes con y sin diabetes — y explicar las diferencias usando tu modelo causal.
RATH admite varios modos de comparación:
- Subset vs. Whole
(por ejemplo, enero vs. el año completo) - Subset vs. Complement
(enero vs. “todo excepto enero”) - Subset vs. Another Subset
(enero vs. junio)
Puedes usar estas comparaciones para:
- Investigar factores causales potenciales detrás de anomalías o valores atípicos.
- Verificar y refinar hipótesis causales usando distribuciones reales.
Ejemplo: análisis de Outcome
- Abre la pestaña Field Insight.
- Haz clic en el nodo
Outcomeen la parte izquierda. - A la derecha, visualiza las distribuciones de individuos con y sin diabetes.
- Haz clic en una de las distribuciones (por ejemplo, resultados positivos) para ejecutar un análisis comparativo.
A continuación, elige el grupo de control y la variable clave de interés, como Glucose, y haz clic en Causal Discovery para que RATH analice posibles causas subyacentes. RATH utiliza diagramas causa‑efecto para sugerir explicaciones de las diferencias observadas.

En el ejemplo de diabetes, al comparar pacientes diabéticos y no diabéticos a menudo se observa que las diferencias están impulsadas por:
BMIAgeGlucose
Al hacer clic en el factor latente Glucose, puedes ver que las distribuciones de glucosa son significativamente más altas para el grupo diabético (resaltado en naranja).

Paso 3.2: Exploración manual
La exploración manual te permite probar visualmente supuestos causales específicos.
Para el dataset de diabetes, podrías querer comprobar:
- Si
Insulines una causa directa deOutcome. - Cómo cambia la relación entre
GlucoseyOutcomecuando controlasInsulin.
Con la exploración manual puedes:
- Representar
Outcomefrente aGlucosey comparar distribuciones entre grupos enfermos y sanos. - Añadir
Insulincomo variable de condicionamiento (por ejemplo, segmentar los datos en intervalos de niveles de insulina).

El análisis tradicional a menudo se queda en la correlación o en la importancia de variables, lo que puede pasar por alto cómo una variable ejerce su influencia. Al incorporar Causal Analysis, RATH ayuda a descubrir estos mecanismos y a revelar cuándo un efecto aparente está explicado en parte por otra variable.

Por ejemplo, después de introducir Insulin entre Outcome y Glucose:
- Al controlar distintos intervalos de
Insulin, la diferencia en insulina entre los grupos enfermo y sano puede desaparecer. - Esto sugiere que la relación directa entre
OutcomeyGlucosees más débil de lo que parece al principio, una vez que se tiene en cuenta la influencia deInsulin.
Paso 3.3: Mutual Inspection
La herramienta Mutual Inspection ofrece otra forma de inspeccionar relaciones causales y verificar supuestos.
Cómo funciona:
- Haz clic en un nodo del grafo causal para añadir su distribución al módulo de verificación de la derecha.
- Por ejemplo, para explorar la relación entre
GlucoseyOutcome, añade ambas variables. - Selecciona un rango de
Glucose, arrastra el rango y observa cómo cambia la distribución deOutcome.

Al recorrer distintos niveles de glucosa y observar cómo responde la distribución del resultado, puedes confirmar visualmente una correlación positiva y lo fuerte que se mantiene en los datos.

Para ir más allá, haz clic en associate views para habilitar la Semi-auto Exploration. RATH recomendará diagramas de dispersión y otras vistas que resalten posibles relaciones entre las variables seleccionadas, ayudándote a descubrir patrones adicionales más rápido.

Paso 3.4: Prediction Test
Una vez que tengas un modelo causal, puedes convertirlo en un modelo predictivo de machine learning y evaluar su rendimiento con Prediction Test.
- Haz clic en la variable
Outcomeen el grafo causal.
RATH construye automáticamente un modelo sencillo de clasificación o regresión utilizando los padres causales y las variables relacionadas.

- Haz clic en Classification para entrenar el modelo y calcular su Accuracy (y otras métricas, según la configuración).

- Ajusta tu estrategia de pruebas:
- Usa el grafo causal para seleccionar conjuntos de variables más eficientes o interpretables.
- Compara modelos construidos con variables causales frente a subconjuntos arbitrarios de variables.
Por ejemplo, puedes construir deliberadamente un modelo competidor que evite las variables sugeridas por el análisis causal de RATH y luego comparar los resultados:

Normalmente, el modelo guiado por el grafo causal logra mayor precisión y mejor generalización que una selección ingenua de variables:

RATH es especialmente adecuado para datasets grandes y de alta dimensionalidad con muchas variables. El análisis causal te ayuda a identificar automáticamente mejores variables, lo que conduce a modelos de machine learning más precisos y más interpretables.
Editar el modelo causal
Los datos del mundo real son desordenados. A veces, el grafo causal generado automáticamente por RATH puede no coincidir del todo con tu conocimiento del dominio debido a:
- Ruido en los datos
- Tamaño de muestra insuficiente
- Variables faltantes
- Restricciones conocidas que el algoritmo no puede inferir
En estos casos, puedes editar directamente el modelo causal.
- Abre el panel de la izquierda.
- Activa Modify Constraints.

Luego:
- Arrastra y suelta nodos para añadir, eliminar o reorientar aristas.
- Codifica conocimiento del dominio (por ejemplo, “la variable A no puede ser causada por la variable B”).
- Deja que RATH regenere nuevos modelos causales que respeten tus restricciones.

Este bucle estrecho entre descubrimiento automático y refinamiento manual te ayuda a converger hacia un modelo causal que sea estadísticamente plausible y esté alineado con el conocimiento experto.
Próximos pasos
Una vez que tengas un modelo causal, puedes ir más allá con RATH:
- Aprende el análisis causal de tipo what‑if explorando el capítulo What-if Analysis. Podrás simular intervenciones (por ejemplo, “¿Qué pasa con
Outcomesi reducimosGlucoseen X?”) directamente sobre el modelo causal. - Descubre patrones en campos de texto con Text Pattern Extraction y luego reutiliza esas variables extraídas en el análisis causal.
RATH también evoluciona hacia explicaciones narrativas basadas en texto de los modelos causales, generando automáticamente insights y sugerencias de decisión directamente a partir de la estructura y las estimaciones de tu grafo causal.
Al combinar descubrimiento causal visual, exploración interactiva y modelado predictivo, RATH convierte tus datasets en insights accionables y explicables, no solo en paneles estáticos.