Análisis causal
¿Qué es el análisis causal?
El análisis causal se refiere al proceso de examinar la relación entre dos o más variables para determinar si una variable tiene un efecto causal sobre la otra. Esto implica identificar las variables que pueden ser responsables de un resultado particular y usar técnicas estadísticas para determinar si existe una relación causal entre ellas.
Cómo realizar el análisis causal con RATH
Para realizar el análisis causal utilizando RATH, se pueden seguir estos pasos:
- Identificar las variables de interés y recopilar datos relevantes.
- Analizar los datos utilizando técnicas estadísticas para determinar si hay una relación significativa entre las variables.
- Extraer conclusiones acerca de la relación causal entre las variables.
Estudio de caso: Análisis causal de la "Base de datos de diabetes" de Kaggle
Por ejemplo, exploremos la "Base de datos de diabetes" de Kaggle (opens in a new tab) utilizando RATH para el análisis causal. Primero, se debe importar la base de datos en RATH y, luego, limpiar los datos eliminando los datos inválidos con BMI
, BloodPressures
y SkinThickness
que sean iguales a 0. En la pestaña DataSource, hacer clic en el botón Clean Method y elegir la opción drop null records.
Después de limpiar los datos, hacer clic en el menú desplegable a la derecha del botón Start Analysis y elegir la opción Causal Analysis.
Paso 1: Configuración de datos
Para realizar un análisis causal, se deben seleccionar todos los campos de datos que se desean incluir. Por ejemplo, se puede concentrar en un conjunto de datos específico o en el conjunto de datos que son pertinentes para el análisis. Hacer clic en el botón Next para continuar.
Paso 2: (Opcional) Dependencias funcionales
Editar las dependencias entre las variables conocidas para aumentar la precisión del proceso de análisis causal. Por ejemplo, se puede instruir a RATH sobre relaciones menos obvias entre las variables.
La siguiente captura de pantalla muestra un ejemplo para que RATH construya automáticamente dependencias funcionales para su base de datos. RATH analiza los valores de diferentes variables y calcula las posibles relaciones. Se pueden construir dependencias personalizadas aquí.
Mejor práctica: si algunos de los datos se generan utilizando expresiones regulares o fórmulas SQL, se recomienda declarar sus dependencias en este paso. Si se está generando estos datos utilizando RATH, no es necesario construir dependencias en este paso, ya que RATH maneja la carga de trabajo automáticamente.
Paso 3: Modelo causal
Hacer clic en el botón Causal Discovery para iniciar el proceso de análisis causal.
La siguiente captura de pantalla muestra el resultado del descubrimiento causal para la base de datos de "Diabetes":
Los factores que afectan a este modelo incluyen:
Glucosa
: la cantidad de glucosa en el cuerpo que afecta el resultado.Insulina
: la cantidad de insulina en el cuerpo que afecta la glucosa, lo que a su vez afecta si alguien desarrolla diabetes.Edad
: que está directamente influenciada por la insulina y que afecta aún más al resultado.
Al hacer clic en un nodo en el gráfico interactivo, se resaltarán los nodos directamente relacionados con él, y la fuerza de la relación entre ellos se mostrará por el borde que los une. El lado derecho también proporciona varios módulos funcionales para una exploración adicional después de hacer clic en el nodo.
Paso 3.1: Análisis comparativo con Field Insights
En el análisis de datos, el análisis comparativo es un método que implica comparar las diferencias entre dos grupos y explicar las razones de estas diferencias basándose en un modelo causal. En aplicaciones prácticas, el análisis comparativo puede proporcionar información valiosa, como comparar la diferencia entre un grupo anormal y el conjunto completo para analizar la causa de la anormalidad.
RATH admite los siguientes tipos de análisis comparativos:
- Comparar la sección seleccionada con el conjunto completo (p. ej., comparar enero con todo el año).
- Comparar la sección seleccionada con su conjunto complementario (p. ej., comparar enero con otros momentos excepto enero).
- Comparar la sección seleccionada con otro conjunto especificado (p. ej., comparar enero con junio).
Se puede utilizar la función de análisis comparativo en RATH para:
- Ayudar en la investigación y comprensión de relaciones causales.
- Verificar y explorar hipótesis causales con percepciones de campo.
Por ejemplo, para examinar las posibles relaciones causales con la variable Resultado
, ir a la pestaña Field Insight y hacer clic en el nodo Resultado
en el lado izquierdo de la pantalla. En el lado derecho de la pantalla, se mostrará la distribución de personas con y sin diabetes. Hacer clic en una de las distribuciones e iniciar un análisis comparativo.
Después de identificar el subconjunto de datos relevante y el grupo de control (en este caso, la variable Glucosa
), hacer clic en el botón Causal Discovery iniciará un análisis de las posibles causas subyacentes, utilizando diagramas de causa y efecto para sugerir posibles explicaciones.
Como se muestra en el ejemplo proporcionado, una comparación de pacientes diabéticos y no diabéticos revela que la diferencia entre los dos grupos puede deberse a factores como BMI
, edad
y Glucosa
. Al hacer clic en el factor latente de Glucosa
, se evidencia que la distribución de glucosa difiere significativamente entre los pacientes diabéticos y no diabéticos.En los dos grupos, la población diabética tiene una distribución más alta, como indica el color naranja.
Paso 3.2. Exploración manual
La exploración manual se puede utilizar para verificar ciertas suposiciones sobre la causalidad utilizando una interfaz visual.
Por ejemplo, al explorar la base de datos de Kaggle titulada "diabetes", se muestra que los niveles de insulina no son una causa directa de diabetes. La relación entre el resultado y la glucosa se puede visualizar utilizando estas herramientas, revelando visualmente que la insulina del grupo de enfermos es mayor que la del grupo sano.
Para analizar datos de manera tradicional, a menudo estudiamos la correlación de variables o la importancia de las características para identificar relaciones entre dos variables. Sin embargo, este enfoque puede pasar por alto el mecanismo de impacto específico que subyace a la relación.
Para abordar esto, RATH proporciona Análisis Causal, lo que nos ayuda a comprender mejor las relaciones causales entre las variables. Al incorporar los resultados del Análisis Causal, obtenemos una comprensión más profunda del mecanismo de impacto específico.
En la siguiente gráfica, introducimos Insulina entre las variables Resultado
y Glucosa
. Observamos que no hay una diferencia significativa en la insulina entre los grupos enfermos y sanos al controlar diferentes intervalos de Insulina
. Esto sugiere que la relación entre las variables Resultado
y Glucosa
es más débil de lo que pensábamos originalmente cuando se introduce el factor de Insulina
.
Paso 3.3: Inspección mutua
Utilice la herramienta de Inspección Mutua para obtener una comprensión más profunda de la relación causal de sus datos o verificar supuestos de relaciones causales entre variables.
Esta herramienta genera gráficos interactivos para ayudarlo a comprender cómo las variables se afectan entre sí. Haga clic en un nodo en el diagrama de causalidad para agregar el diagrama de distribución de la variable correspondiente al módulo de verificación a la derecha. Por ejemplo, si desea explorar la relación entre Glucosa
y Resultado
en su estudio, puede utilizar esta herramienta.
Cuando seleccionamos un rango de Glucosa
, arrastramos este rango y observamos la distribución de Resultado
, podemos observar una correlación positiva entre los dos factores.
También puede utilizar la función de Exploración Semi-automática clicando en el botón associate views para estudiar aún más la relación entre variables. Esta función genera gráficos de dispersión recomendados para ayudarlo a explorar la posible relación entre los dos factores.
Paso 3.4. Prueba de predicción
Los usuarios avanzados pueden solucionar problemas y desplegar modelos de aprendizaje automático con la función Prueba de Predicción. Le permite editar libremente modelos causales y aplicar algoritmos avanzados de aprendizaje automático.
Haga clic en la variable Resultado
, y RATH creará automáticamente un modelo de aprendizaje automático simple para tareas de clasificación o regresión basado en causalidad.
Haga clic en el botón Clasificación para entrenar el modelo y producir su Exactitud.
Puede ajustar su estrategia de prueba observando el modelo causal y seleccionando factores de influencia más eficientes de acuerdo con la relación causal, para modificar su modelo causal. Para comparación, evitamos deliberadamente las características seleccionadas por RATH basadas en causalidad e intentamos entrenar un modelo diferente.
Como se muestra en la gráfica a continuación, la precisión del modelo creado por RATH es significativamente mejor que el modelo que creamos para la comparación.
RATH es particularmente adecuado para manejar datos masivos con un número significativo de variables. Puede ayudarlo a encontrar características mejores y a crear modelos de aprendizaje automático más precisos.
Editar modelo causal
A veces, RATH puede producir resultados insatisfactorios debido al ruido de datos, datos insuficientes o factores de influencia faltantes. En tales casos, puede editar directamente el modelo causal generado.
Para modificar el modelo, abra el panel de la izquierda y active la opción Modificar restricciones, como se muestra en la siguiente captura de pantalla.
Arrastre y suelte para editar el modelo causal. RATH generará automáticamente nuevos modelos causales basados en su entrada.
Próximos pasos
Si es un analista de datos que desea aprender el tipo de análisis causal "¿Qué pasaría si?", consulte el capítulo de Análisis de "¿Qué pasaría si?". Para el descubrimiento de patrones de texto, consulte el capítulo de Extracción de Patrones de Texto.
RATH también trabaja en características más fáciles de usar, como la capacidad de generar análisis basados en texto y sugerencias para los tomadores de decisiones mediante el análisis de un modelo de relación causal existente.