Analyse causale
RATH propose un workflow visuel, sans code pour trouver et explorer les relations causales dans vos données. Au lieu de s’arrêter à de simples corrélations, vous pouvez découvrir des causes potentielles, tester des hypothèses et construire de meilleurs modèles de machine learning — le tout à partir d’un graphe causal interactif.
Dans ce guide, vous allez :
- Comprendre ce qu’est l’analyse causale et quand l’utiliser.
- Apprendre le workflow étape par étape pour exécuter une analyse causale dans RATH.
- Parcourir un exemple concret en utilisant le jeu de données Kaggle « Diabetes ».
- Explorer des outils avancés comme l’analyse comparative, l’inspection mutuelle, les tests de prédiction et l’édition manuelle de modèles causaux.
Qu’est-ce que l’analyse causale ?
L’analyse causale est le processus d’examen des relations entre variables pour déterminer si les changements d’une variable causent des changements dans une autre — et non pas seulement si elles évoluent ensemble.
En pratique, cela implique :
- Identifier les variables susceptibles d’influencer un résultat d’intérêt.
- Construire un modèle causal (souvent un graphe orienté) qui encode des hypothèses ou des relations apprises.
- Utiliser des techniques statistiques et algorithmiques pour estimer la force et la direction de ces effets.
- Tester et affiner des hypothèses, au lieu de se fier uniquement à la corrélation ou à l’importance des variables.
Comme la plupart des données réelles sont observationnelles (et non issues d’expériences contrôlées), l’analyse causale ne garantit pas une « causalité vraie », mais elle permet de générer et de valider des hypothèses beaucoup plus solides et interprétables que la simple corrélation.
Comment réaliser une analyse causale avec RATH
RATH encapsule des techniques complexes de découverte causale dans un workflow interactif. À un niveau élevé, vous :
-
Connectez et préparez vos données
- Importez votre jeu de données dans RATH.
- Nettoyez les enregistrements invalides et vérifiez que les champs clés ont le bon type (numérique, catégoriel, etc.).
-
Configurez les champs et les dépendances optionnelles
- Choisissez les champs à inclure dans le modèle causal.
- Facultativement, déclarez les dépendances fonctionnelles connues (par ex. champs dérivés, formules) pour que RATH puisse en tenir compte lors de la découverte.
-
Lancez la découverte causale
- Démarrez le workflow Causal Analysis et laissez RATH inférer un graphe causal à partir de vos données.
-
Explorez et validez les relations
- Utilisez des outils comme Field Insights, Manual Exploration et Mutual Inspection pour vérifier et affiner le modèle découvert à la lumière de votre expertise métier.
-
Construisez et testez des modèles prédictifs
- Utilisez Prediction Test pour créer des modèles de machine learning basés sur le graphe causal et les comparer à d’autres jeux de variables.
-
Éditez et finalisez le modèle causal
- Ajustez manuellement le modèle lorsque vous disposez de connaissances supplémentaires, de données bruyantes ou de facteurs manquants.
Les sections suivantes illustrent ce workflow avec un exemple réel.
Étude de cas : analyse causale du « Diabetes Database » de Kaggle
Pour un exemple concret, explorons le « Diabetes Database » de Kaggle (opens in a new tab) dans RATH. Notre objectif est de comprendre quels facteurs influencent le plus fortement la variable Outcome (diagnostic de diabète) et comment ils interagissent.
Préparer et nettoyer le jeu de données
- Importez le jeu de données dans RATH.
- Supprimez les enregistrements invalides où
BMI,BloodPressuresouSkinThicknesssont égaux à0.
Dans l’onglet DataSource :- Cliquez sur Clean Method.
- Choisissez drop null records pour filtrer les lignes contenant des valeurs invalides.
Une fois les données nettoyées, ouvrez le menu déroulant à droite du bouton Start Analysis et choisissez Causal Analysis pour lancer le workflow.
Étape 1 : Configuration des données
Dans Data Configuration, choisissez les champs à inclure dans l’analyse causale.
- Sélectionnez toutes les variables pertinentes (par exemple,
Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,AgeetOutcome). - Facultativement, excluez les champs que vous savez être non pertinents ou trop bruyants.
Lorsque vous avez terminé, cliquez sur Next pour continuer.

Astuce : Commencez avec toutes les variables potentiellement pertinentes, puis affinez plus tard selon votre modèle causal et les résultats de prédiction.
Étape 2 : (Optionnel) Dépendances fonctionnelles
Dans de nombreux jeux de données, certains champs sont dérivés d’autres (par exemple, des ratios calculés, des identifiants formatés ou des champs générés par des formules SQL). Déclarer ces relations dès le départ aide RATH à éviter d’apprendre des liens causaux trompeurs.
Dans l’étape Functional Dependencies, vous pouvez :
- Laisser RATH analyser automatiquement vos données et suggérer des dépendances.
- Spécifier manuellement des relations que vous connaissez déjà (par ex.
TotalAmount = Quantity × UnitPrice).
RATH analyse les valeurs des différentes variables et calcule des relations fonctionnelles possibles. Vous pouvez accepter, modifier ou ajouter vos propres dépendances.

Bonne pratique :
Si certaines de vos données sont générées par des expressions régulières ou des formules SQL, déclarez leurs dépendances ici. Si ces champs dérivés sont créés à l’intérieur de RATH, vous n’avez souvent rien à faire — RATH les gère automatiquement.
Étape 3 : Modèle causal
Cliquez sur Causal Discovery pour laisser RATH inférer un modèle causal à partir des champs configurés.
La capture d’écran ci-dessous montre un résultat typique de découverte causale pour le jeu de données diabetes :

Dans cet exemple, quelques relations clés sont :
Glucose→Outcome
Des niveaux de glucose plus élevés augmentent la probabilité d’un diagnostic positif de diabète.Insulin→Glucose→Outcome
L’insuline affecte le glucose, qui à son tour influence le résultat de diabète.Age→Outcome(et parfois influencé par des facteurs de santé associés)
L’âge contribue à la probabilité d’être diabétique.
Le graphe interactif est votre espace de travail central :
- Cliquez sur un nœud pour mettre en évidence ses causes et effets directs.
- Examinez l’épaisseur des arêtes ou les indicateurs de force pour comprendre l’intensité d’une relation.
- Utilisez le panneau de droite pour accéder aux différents outils (Field Insights, Manual Exploration, Mutual Inspection, Prediction Test) centrés sur la variable sélectionnée.

Étape 3.1 : Analyse comparative avec Field Insights
L’analyse comparative vous permet de comparer deux groupes — par exemple, des patients avec et sans diabète — et d’expliquer leurs différences à l’aide de votre modèle causal.
RATH prend en charge plusieurs modes de comparaison :
- Subset vs. Whole
(par ex. janvier vs. l’année entière) - Subset vs. Complement
(janvier vs. « tout sauf janvier ») - Subset vs. Another Subset
(janvier vs. juin)
Vous pouvez utiliser ces comparaisons pour :
- Investiguer des facteurs causaux potentiels derrière des anomalies ou des valeurs extrêmes.
- Vérifier et affiner des hypothèses causales en utilisant les distributions réelles.
Exemple : analyse de Outcome
- Ouvrez l’onglet Field Insight.
- Cliquez sur le nœud
Outcomeà gauche. - À droite, consultez les distributions des individus avec et sans diabète.
- Cliquez sur l’une des distributions (par ex. les résultats positifs) pour lancer une analyse comparative.
Ensuite, choisissez le groupe de contrôle et la variable clé d’intérêt, par exemple Glucose, puis cliquez sur Causal Discovery pour laisser RATH analyser les causes potentielles sous-jacentes. RATH utilise des diagrammes cause-effet pour proposer des explications aux différences observées.

Dans l’exemple diabetes, comparer les patients diabétiques et non diabétiques révèle souvent que les différences sont principalement liées à :
BMIAgeGlucose
En cliquant sur le facteur latent Glucose, vous pouvez voir que les distributions de glucose sont nettement plus élevées pour le groupe diabétique (surligné en orange).

Étape 3.2 : Exploration manuelle
L’exploration manuelle vous permet de tester visuellement des hypothèses causales spécifiques.
Pour le jeu de données diabetes, vous pourriez vouloir vérifier :
- Si
Insulinest une cause directe deOutcome. - Comment la relation entre
GlucoseetOutcomeévolue lorsque vous contrôlezInsulin.
Avec l’exploration manuelle, vous pouvez :
- Tracer
Outcomeen fonction deGlucoseet comparer les distributions entre les groupes malades et sains. - Ajouter
Insulincomme variable de conditionnement (par ex. découper les données en intervalles de niveaux d’insuline).

L’analyse traditionnelle s’arrête souvent à la corrélation ou à l’importance des variables, ce qui peut masquer comment une variable exerce son influence. En intégrant l’analyse causale, RATH aide à dévoiler ces mécanismes et à montrer quand un effet apparent est en partie expliqué par une autre variable.

Par exemple, après avoir introduit Insulin entre Outcome et Glucose :
- En contrôlant différents intervalles d’
Insulin, la différence d’insuline entre les groupes malade et sain peut disparaître. - Cela suggère que la relation directe entre
OutcomeetGlucoseest plus faible qu’elle n’y paraît au premier abord, une fois l’influence d’Insulinprise en compte.
Étape 3.3 : Mutual Inspection
L’outil Mutual Inspection offre un autre moyen d’inspecter des relations causales et de vérifier des hypothèses.
Fonctionnement :
- Cliquez sur un nœud dans le graphe causal pour ajouter sa distribution au module de vérification à droite.
- Par exemple, pour explorer la relation entre
GlucoseetOutcome, ajoutez les deux variables. - Sélectionnez un intervalle de
Glucose, faites glisser cet intervalle et observez comment la distribution deOutcomechange.

En balayant différents niveaux de glucose et en observant la réponse de la distribution du résultat, vous pouvez confirmer visuellement une corrélation positive et la force avec laquelle elle se maintient dans les données.

Pour aller plus loin, cliquez sur associate views pour activer la Semi-auto Exploration. RATH recommandera des nuages de points et d’autres vues qui mettent en évidence des relations possibles entre les variables sélectionnées, vous aidant à découvrir plus rapidement des motifs supplémentaires.

Étape 3.4 : Prediction Test
Une fois que vous disposez d’un modèle causal, vous pouvez le transformer en modèle prédictif de machine learning et évaluer ses performances avec Prediction Test.
- Cliquez sur la variable
Outcomedans le graphe causal.
RATH construit automatiquement un modèle de classification ou de régression simple en utilisant les parents causaux et les variables associées.

- Cliquez sur Classification pour entraîner le modèle et calculer son Accuracy (et d’autres métriques, selon la configuration).

- Ajustez votre stratégie de test :
- Utilisez le graphe causal pour sélectionner des jeux de variables plus efficaces ou plus interprétables.
- Comparez des modèles construits à partir de variables causales vs. des sous-ensembles de variables choisis arbitrairement.
Par exemple, vous pouvez délibérément construire un modèle concurrent qui ignore les variables suggérées par l’analyse causale de RATH, puis comparer les résultats :

En règle générale, le modèle guidé par le graphe causal obtient une meilleure accuracy et une meilleure généralisation qu’une sélection de variables naïve :

RATH est particulièrement adapté aux grands jeux de données à haute dimensionnalité comportant de nombreuses variables. L’analyse causale vous aide à identifier automatiquement de meilleures variables, conduisant à des modèles de machine learning plus précis et plus interprétables.
Modifier le modèle causal
Les données réelles sont désordonnées. Il arrive que le graphe causal généré automatiquement par RATH ne corresponde pas entièrement à votre connaissance métier, en raison de :
- Bruit dans les données
- Taille d’échantillon insuffisante
- Variables manquantes
- Contraintes connues que l’algorithme ne peut pas inférer
Dans ces cas, vous pouvez éditer directement le modèle causal.
- Ouvrez le panneau situé à gauche.
- Activez Modify Constraints.

Ensuite :
- Glissez-déposez les nœuds pour ajouter, supprimer ou réorienter les arêtes.
- Encodez vos connaissances métier (par exemple, « la variable A ne peut pas être causée par la variable B »).
- Laissez RATH régénérer de nouveaux modèles causaux qui respectent vos contraintes.

Ce cycle serré entre découverte automatique et raffinement manuel vous aide à converger vers un modèle causal à la fois statistiquement plausible et aligné avec l’expertise métier.
Prochaines étapes
Une fois que vous disposez d’un modèle causal, vous pouvez aller plus loin avec RATH :
- Apprenez l’analyse causale de type “what-if” en explorant le chapitre What-if Analysis. Vous y simulerez des interventions (par ex. « Que se passe-t-il pour
Outcomesi l’on réduitGlucosede X ? ») directement sur le modèle causal. - Découvrez des motifs dans des champs textuels avec Text Pattern Extraction, puis réinjectez ces variables extraites dans l’analyse causale.
RATH évolue également vers des explications narratives, basées sur le texte, des modèles causaux — en générant automatiquement des insights et des suggestions de décisions directement à partir de la structure et des estimations de votre graphe causal.
En combinant découverte causale visuelle, exploration interactive et modélisation prédictive, RATH transforme vos jeux de données en insights actionnables et explicables — pas seulement en tableaux de bord statiques.