Analyse causale

Qu'est-ce que l'analyse causale ?

L'analyse causale fait référence au processus d'examen de la relation entre deux ou plusieurs variables afin de déterminer si une variable a un effet causal sur l'autre. Cela implique d'identifier les variables qui peuvent être responsables d'un résultat particulier et d'utiliser des techniques statistiques pour déterminer s'il existe une relation causale entre elles.

Comment réaliser une analyse causale avec RATH

Pour réaliser une analyse causale à l'aide de RATH, vous pouvez suivre ces étapes :

Identifier les variables d'intérêt et collecter les données pertinentes.
Analyser les données à l'aide de techniques statistiques pour déterminer s'il existe une relation significative entre les variables.
Tirer des conclusions sur la relation causale entre les variables.

Étude de cas : Analyse causale de la "base de données sur le diabète" de Kaggle

Par exemple, explorons la "base de données sur le diabète" de Kaggle (opens in a new tab) à l'aide de RATH pour une analyse causale. Tout d'abord, importez la base de données dans RATH, puis nettoyez les données en supprimant les données invalides avec BMI, BloodPressures et SkinThickness qui sont égales à 0. Sur l'onglet DataSource, cliquez sur le bouton Clean Method et choisissez l'option drop null records.

Après avoir nettoyé les données, cliquez sur le menu déroulant à droite du bouton Start Analysis et choisissez l'option Causal Analysis.

Étape 1 : Configuration des données

Pour mener une analyse causale, sélectionnez tous les champs de données que vous souhaitez inclure. Par exemple, vous pouvez vouloir vous concentrer sur un sous-ensemble spécifique de données ou seulement les données pertinentes pour votre analyse. Cliquez sur le bouton Next pour continuer. Configuration des données de l'analyse causale

Étape 2 : (Facultatif) Dépendances fonctionnelles

Modifiez les dépendances entre les variables connues pour augmenter l'exactitude du processus d'analyse causale. Par exemple, vous pouvez informer RATH sur les relations moins évidentes entre les variables.

La capture d'écran suivante montre un exemple pour que RATH construise automatiquement des dépendances fonctionnelles pour votre base de données. RATH analyse les valeurs des différentes variables et calcule les relations possibles. Vous pouvez créer vos propres dépendances ici. Analyse causale des dépendances fonctionnelles

Meilleure pratique : Si certaines de vos données sont générées à l'aide d'expressions régulières ou de formules SQL, il est conseillé de déclarer leurs dépendances à cette étape. Si vous générez ces données à l'aide de RATH, il n'est pas nécessaire de construire des dépendances à cette étape, car RATH gère automatiquement la charge de travail.

Étape 3 : Modèle causal

Cliquez sur le bouton Causal Discovery pour lancer le processus d'analyse causale.

La capture d'écran suivante montre le résultat de la découverte causale pour la base de données "Diabetes" : Analyse causale du diabète

Les facteurs qui influencent ce modèle incluent :

Glucose : La quantité de glucose dans le corps qui affecte le Résultat.
Insuline : La quantité d'insuline dans le corps qui affecte le Glucose, qui à son tour affecte si un individu développe ou non le diabète.
Âge : Qui est directement influencé par l'Insuline et affecte ensuite le Résultat.

En cliquant sur un nœud dans le graphique interactif, les nœuds directement liés à celui-ci seront mis en évidence et la force de la relation entre les deux sera affichée par le lien entre eux. Le côté droit fournit également divers modules fonctionnels pour une exploration plus approfondie après avoir cliqué sur le nœud. Interaction avec le graphique d'analyse causale

Étape 3.1 : Analyse comparative avec des informations sur les champs

Dans l'analyse de données, l'analyse comparative est une méthode qui consiste à comparer les différences entre deux groupes et à expliquer les raisons de ces différences en fonction d'un modèle causal. Dans des applications pratiques, l'analyse comparative peut fournir des informations précieuses, par exemple en comparant la différence entre un groupe anormal et l'ensemble pour analyser la cause de l'anormalité.

RATH prend en charge les types d'analyse comparative suivants :

Comparer la section sélectionnée avec l'ensemble complet (par exemple, comparer janvier avec l'année complète)
Comparer la section sélectionnée avec son ensemble supplémentaire (par exemple, comparer janvier avec d'autres périodes sauf janvier)
Comparer la section sélectionnée avec un autre ensemble spécifié (par exemple, comparer janvier avec juin)

Vous pouvez utiliser la fonction d'analyse comparative dans RATH pour :

Aider à la recherche et à la compréhension des relations causales.
Vérifier et explorer des hypothèses causales avec des informations sur les champs.

Par exemple, pour examiner les relations causales potentielles avec la variable Résultat, accédez à l'onglet Field Insight et cliquez sur le nœud Résultat sur le côté gauche de l'écran. Sur le côté droit de l'écran, la répartition des individus avec et sans diabète sera affichée. Cliquez sur l'une des répartitions et lancez une analyse comparative.

Après avoir identifié le sous-ensemble de données pertinent et le groupe témoin (dans ce cas, la variable Glucose), en cliquant sur le bouton Causal Discovery, une analyse des causes sous-jacentes potentielles sera lancée, en utilisant des diagrammes de cause à effet pour suggérer des explications possibles. Analyse causale - Analyse comparative Comme le montre l'exemple fourni, une comparaison entre des patients diabétiques et non diabétiques révèle que la différence entre les deux groupes peut être due à des facteurs tels que BMI, age et Glucose. En cliquant sur le facteur latent Glucose, il est évident que la distribution du glucose diffère significativement entre les deux groupes, la population diabétique ayant une distribution plus élevée, comme l'indique la couleur orange. Analyse causale - Analyse comparative

Étape 3.2. Exploration manuelle

Vous pouvez utiliser l'exploration manuelle pour vérifier certaines hypothèses sur la causalité à l'aide d'une interface visuelle.

Par exemple, l'exploration de la base de données Kaggle intitulée "diabetes" montre que les niveaux d'insuline ne sont pas une cause directe du diabète. La relation entre le résultat et le glucose peut être visualisée à l'aide de ces outils, révélant visuellement que l'insuline du groupe de malades est plus élevée que celle du groupe en bonne santé. Analyse causale - Exploration manuelle

Pour analyser les données traditionnellement, nous étudions souvent la corrélation entre les variables ou l'importance des caractéristiques pour identifier les relations entre deux variables. Cependant, cette approche peut négliger le mécanisme d'impact spécifique qui sous-tend la relation.

Pour remédier à cela, RATH propose l'analyse causale, qui nous aide à mieux comprendre les relations causales entre les variables. En intégrant les résultats de l'analyse causale, nous acquérons une compréhension plus approfondie du mécanisme d'impact spécifique. Analyse causale - Exploration manuelle

Dans le graphique suivant, nous introduisons l'insuline entre les variables Résultat et Glucose. Nous observons qu'il n'y a pas de différence significative dans l'insuline entre les groupes malades et sains lorsque l'on contrôle différents intervalles d'insuline. Cela suggère que la relation entre les variables Résultat et Glucose est plus faible que ce que nous pensions initialement lorsque le facteur d'insuline est introduit.

Étape 3.3 : Inspection mutuelle

Utilisez l'outil d'inspection mutuelle pour mieux comprendre la relation causale de vos données ou vérifier les hypothèses de relations causales entre les variables.

Cet outil génère des graphiques interactifs pour vous aider à comprendre comment les variables s'influencent mutuellement. Cliquez sur un nœud dans le diagramme de causalité pour ajouter le diagramme de distribution de la variable correspondante au module de vérification à droite. Par exemple, si vous souhaitez explorer la relation entre Glucose et Résultat dans votre étude, vous pouvez utiliser cet outil. Analyse causale - Inspection mutuelle

Lorsque nous sélectionnons une plage de Glucose, la faisons glisser et observons la distribution de Résultat, nous pouvons observer une corrélation positive entre les deux facteurs. Analyse causale - Inspection mutuelle

Vous pouvez également utiliser la fonction d'exploration semi-automatique en cliquant sur le bouton vues associées pour approfondir l'étude de la relation entre les variables. Cette fonction génère des diagrammes de dispersion recommandés pour vous aider à explorer la possible relation entre les deux facteurs. Analyse causale - Inspection mutuelle

Étape 3.4. Test de prédiction

Les utilisateurs avancés peuvent déboguer et déployer des modèles d'apprentissage automatique avec la fonction de test de prédiction. Elle vous permet de modifier librement les modèles causaux et d'appliquer des algorithmes d'apprentissage automatique avancés.

Cliquez sur la variable Résultat et RATH créera automatiquement un modèle d'apprentissage automatique simple pour des tâches de classification ou de régression basées sur la causalité. Analyse causale - Test de prédiction

Cliquez sur le bouton Classification pour entraîner le modèle et obtenir son Accuracy. Analyse causale - Test de prédiction

Vous pouvez ajuster votre stratégie de test en observant le modèle causal et en sélectionnant les facteurs d'influence les plus efficaces en fonction de la relation causale pour modifier votre modèle causal. À titre de comparaison, nous évitons délibérément les caractéristiques sélectionnées par RATH basées sur la causalité et essayons de former un modèle différent. Analyse causale - Test de prédiction

Comme le montre le graphique ci-dessous, l'exactitude du modèle créé par RATH est significativement meilleure que celle du modèle que nous avons créé pour la comparaison. Analyse causale - Test de prédiction

RATH est particulièrement adapté au traitement de données massives avec un nombre important de variables. Il peut vous aider à trouver de meilleures caractéristiques et à créer des modèles d'apprentissage automatique plus précis.

Modifier le modèle causal

Parfois, RATH peut produire des résultats insatisfaisants en raison du bruit des données, d'une quantité insuffisante de données ou de l'absence de facteurs d'influence. Dans de tels cas, vous pouvez directement modifier le modèle causal généré.

Pour modifier le modèle, ouvrez le panneau de gauche et activez l'option Modifier les contraintes, comme indiqué dans la capture d'écran ci-dessous. Modification de l'analyse causale

Faites glisser et déposez pour modifier le modèle causal. RATH générera automatiquement de nouveaux modèles causaux en fonction de votre entrée. Modification de l'analyse causale

Étapes suivantes

Si vous êtes un analyste de données qui souhaite apprendre le type d'analyse causale What-if, consultez le chapitre Analyse What-if. Pour la découverte des schémas de texte, consultez le chapitre Extraction de schémas de texte.

RATH travaille également sur des fonctionnalités plus conviviales telles que la possibilité de générer une analyse basée sur du texte et des suggestions pour les décideurs en analysant un modèle de relation causale existant.

Visualiser les données Analyse de scénarios