Skip to content
RATH
Découvrir les causes
Analyse causale

Analyse causale

RATH propose un workflow visuel, sans code pour trouver et explorer les relations causales dans vos données. Au lieu de s’arrêter à de simples corrélations, vous pouvez découvrir des causes potentielles, tester des hypothèses et construire de meilleurs modèles de machine learning — le tout à partir d’un graphe causal interactif.

Dans ce guide, vous allez :

  • Comprendre ce qu’est l’analyse causale et quand l’utiliser.
  • Apprendre le workflow étape par étape pour exécuter une analyse causale dans RATH.
  • Parcourir un exemple concret en utilisant le jeu de données Kaggle « Diabetes ».
  • Explorer des outils avancés comme l’analyse comparative, l’inspection mutuelle, les tests de prédiction et l’édition manuelle de modèles causaux.

Qu’est-ce que l’analyse causale ?

L’analyse causale est le processus d’examen des relations entre variables pour déterminer si les changements d’une variable causent des changements dans une autre — et non pas seulement si elles évoluent ensemble.

En pratique, cela implique :

  • Identifier les variables susceptibles d’influencer un résultat d’intérêt.
  • Construire un modèle causal (souvent un graphe orienté) qui encode des hypothèses ou des relations apprises.
  • Utiliser des techniques statistiques et algorithmiques pour estimer la force et la direction de ces effets.
  • Tester et affiner des hypothèses, au lieu de se fier uniquement à la corrélation ou à l’importance des variables.

Comme la plupart des données réelles sont observationnelles (et non issues d’expériences contrôlées), l’analyse causale ne garantit pas une « causalité vraie », mais elle permet de générer et de valider des hypothèses beaucoup plus solides et interprétables que la simple corrélation.


Comment réaliser une analyse causale avec RATH

RATH encapsule des techniques complexes de découverte causale dans un workflow interactif. À un niveau élevé, vous :

  1. Connectez et préparez vos données

    • Importez votre jeu de données dans RATH.
    • Nettoyez les enregistrements invalides et vérifiez que les champs clés ont le bon type (numérique, catégoriel, etc.).
  2. Configurez les champs et les dépendances optionnelles

    • Choisissez les champs à inclure dans le modèle causal.
    • Facultativement, déclarez les dépendances fonctionnelles connues (par ex. champs dérivés, formules) pour que RATH puisse en tenir compte lors de la découverte.
  3. Lancez la découverte causale

    • Démarrez le workflow Causal Analysis et laissez RATH inférer un graphe causal à partir de vos données.
  4. Explorez et validez les relations

    • Utilisez des outils comme Field Insights, Manual Exploration et Mutual Inspection pour vérifier et affiner le modèle découvert à la lumière de votre expertise métier.
  5. Construisez et testez des modèles prédictifs

    • Utilisez Prediction Test pour créer des modèles de machine learning basés sur le graphe causal et les comparer à d’autres jeux de variables.
  6. Éditez et finalisez le modèle causal

    • Ajustez manuellement le modèle lorsque vous disposez de connaissances supplémentaires, de données bruyantes ou de facteurs manquants.

Les sections suivantes illustrent ce workflow avec un exemple réel.


Étude de cas : analyse causale du « Diabetes Database » de Kaggle

Pour un exemple concret, explorons le « Diabetes Database » de Kaggle (opens in a new tab) dans RATH. Notre objectif est de comprendre quels facteurs influencent le plus fortement la variable Outcome (diagnostic de diabète) et comment ils interagissent.

Préparer et nettoyer le jeu de données

  1. Importez le jeu de données dans RATH.
  2. Supprimez les enregistrements invalides où BMI, BloodPressures ou SkinThickness sont égaux à 0.
    Dans l’onglet DataSource :
    • Cliquez sur Clean Method.
    • Choisissez drop null records pour filtrer les lignes contenant des valeurs invalides.

Une fois les données nettoyées, ouvrez le menu déroulant à droite du bouton Start Analysis et choisissez Causal Analysis pour lancer le workflow.


Étape 1 : Configuration des données

Dans Data Configuration, choisissez les champs à inclure dans l’analyse causale.

  • Sélectionnez toutes les variables pertinentes (par exemple, Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI, DiabetesPedigreeFunction, Age et Outcome).
  • Facultativement, excluez les champs que vous savez être non pertinents ou trop bruyants.

Lorsque vous avez terminé, cliquez sur Next pour continuer.

Causal analysis data configuration

Astuce : Commencez avec toutes les variables potentiellement pertinentes, puis affinez plus tard selon votre modèle causal et les résultats de prédiction.


Étape 2 : (Optionnel) Dépendances fonctionnelles

Dans de nombreux jeux de données, certains champs sont dérivés d’autres (par exemple, des ratios calculés, des identifiants formatés ou des champs générés par des formules SQL). Déclarer ces relations dès le départ aide RATH à éviter d’apprendre des liens causaux trompeurs.

Dans l’étape Functional Dependencies, vous pouvez :

  • Laisser RATH analyser automatiquement vos données et suggérer des dépendances.
  • Spécifier manuellement des relations que vous connaissez déjà (par ex. TotalAmount = Quantity × UnitPrice).

RATH analyse les valeurs des différentes variables et calcule des relations fonctionnelles possibles. Vous pouvez accepter, modifier ou ajouter vos propres dépendances.

Causal analysis of functional dependencies

Bonne pratique :
Si certaines de vos données sont générées par des expressions régulières ou des formules SQL, déclarez leurs dépendances ici. Si ces champs dérivés sont créés à l’intérieur de RATH, vous n’avez souvent rien à faire — RATH les gère automatiquement.


Étape 3 : Modèle causal

Cliquez sur Causal Discovery pour laisser RATH inférer un modèle causal à partir des champs configurés.

La capture d’écran ci-dessous montre un résultat typique de découverte causale pour le jeu de données diabetes :

Causal Analysis diabetes

Dans cet exemple, quelques relations clés sont :

  • GlucoseOutcome
    Des niveaux de glucose plus élevés augmentent la probabilité d’un diagnostic positif de diabète.
  • InsulinGlucoseOutcome
    L’insuline affecte le glucose, qui à son tour influence le résultat de diabète.
  • AgeOutcome (et parfois influencé par des facteurs de santé associés)
    L’âge contribue à la probabilité d’être diabétique.

Le graphe interactif est votre espace de travail central :

  • Cliquez sur un nœud pour mettre en évidence ses causes et effets directs.
  • Examinez l’épaisseur des arêtes ou les indicateurs de force pour comprendre l’intensité d’une relation.
  • Utilisez le panneau de droite pour accéder aux différents outils (Field Insights, Manual Exploration, Mutual Inspection, Prediction Test) centrés sur la variable sélectionnée.

Interaction with Causal Analysis Graphic Interaction with Causal Analysis Graphic


Étape 3.1 : Analyse comparative avec Field Insights

L’analyse comparative vous permet de comparer deux groupes — par exemple, des patients avec et sans diabète — et d’expliquer leurs différences à l’aide de votre modèle causal.

RATH prend en charge plusieurs modes de comparaison :

  • Subset vs. Whole
    (par ex. janvier vs. l’année entière)
  • Subset vs. Complement
    (janvier vs. « tout sauf janvier »)
  • Subset vs. Another Subset
    (janvier vs. juin)

Vous pouvez utiliser ces comparaisons pour :

  • Investiguer des facteurs causaux potentiels derrière des anomalies ou des valeurs extrêmes.
  • Vérifier et affiner des hypothèses causales en utilisant les distributions réelles.

Exemple : analyse de Outcome

  1. Ouvrez l’onglet Field Insight.
  2. Cliquez sur le nœud Outcome à gauche.
  3. À droite, consultez les distributions des individus avec et sans diabète.
  4. Cliquez sur l’une des distributions (par ex. les résultats positifs) pour lancer une analyse comparative.

Ensuite, choisissez le groupe de contrôle et la variable clé d’intérêt, par exemple Glucose, puis cliquez sur Causal Discovery pour laisser RATH analyser les causes potentielles sous-jacentes. RATH utilise des diagrammes cause-effet pour proposer des explications aux différences observées.

Causal Analysis Comparative Analysis

Dans l’exemple diabetes, comparer les patients diabétiques et non diabétiques révèle souvent que les différences sont principalement liées à :

  • BMI
  • Age
  • Glucose

En cliquant sur le facteur latent Glucose, vous pouvez voir que les distributions de glucose sont nettement plus élevées pour le groupe diabétique (surligné en orange).

Causal Analysis Comparative Analysis


Étape 3.2 : Exploration manuelle

L’exploration manuelle vous permet de tester visuellement des hypothèses causales spécifiques.

Pour le jeu de données diabetes, vous pourriez vouloir vérifier :

  • Si Insulin est une cause directe de Outcome.
  • Comment la relation entre Glucose et Outcome évolue lorsque vous contrôlez Insulin.

Avec l’exploration manuelle, vous pouvez :

  1. Tracer Outcome en fonction de Glucose et comparer les distributions entre les groupes malades et sains.
  2. Ajouter Insulin comme variable de conditionnement (par ex. découper les données en intervalles de niveaux d’insuline).

Causal Analysis Manual Exploration

L’analyse traditionnelle s’arrête souvent à la corrélation ou à l’importance des variables, ce qui peut masquer comment une variable exerce son influence. En intégrant l’analyse causale, RATH aide à dévoiler ces mécanismes et à montrer quand un effet apparent est en partie expliqué par une autre variable.

Causal Analysis Manual Exploration

Par exemple, après avoir introduit Insulin entre Outcome et Glucose :

  • En contrôlant différents intervalles d’Insulin, la différence d’insuline entre les groupes malade et sain peut disparaître.
  • Cela suggère que la relation directe entre Outcome et Glucose est plus faible qu’elle n’y paraît au premier abord, une fois l’influence d’Insulin prise en compte.

Étape 3.3 : Mutual Inspection

L’outil Mutual Inspection offre un autre moyen d’inspecter des relations causales et de vérifier des hypothèses.

Fonctionnement :

  1. Cliquez sur un nœud dans le graphe causal pour ajouter sa distribution au module de vérification à droite.
  2. Par exemple, pour explorer la relation entre Glucose et Outcome, ajoutez les deux variables.
  3. Sélectionnez un intervalle de Glucose, faites glisser cet intervalle et observez comment la distribution de Outcome change.

Causal Analysis Mutual Inspection

En balayant différents niveaux de glucose et en observant la réponse de la distribution du résultat, vous pouvez confirmer visuellement une corrélation positive et la force avec laquelle elle se maintient dans les données.

Causal Analysis Mutual Inspection

Pour aller plus loin, cliquez sur associate views pour activer la Semi-auto Exploration. RATH recommandera des nuages de points et d’autres vues qui mettent en évidence des relations possibles entre les variables sélectionnées, vous aidant à découvrir plus rapidement des motifs supplémentaires.

Causal Analysis Mutual Inspection


Étape 3.4 : Prediction Test

Une fois que vous disposez d’un modèle causal, vous pouvez le transformer en modèle prédictif de machine learning et évaluer ses performances avec Prediction Test.

  1. Cliquez sur la variable Outcome dans le graphe causal.
    RATH construit automatiquement un modèle de classification ou de régression simple en utilisant les parents causaux et les variables associées.

Causal Analysis Prediction Test

  1. Cliquez sur Classification pour entraîner le modèle et calculer son Accuracy (et d’autres métriques, selon la configuration).

Causal Analysis Prediction Test

  1. Ajustez votre stratégie de test :
    • Utilisez le graphe causal pour sélectionner des jeux de variables plus efficaces ou plus interprétables.
    • Comparez des modèles construits à partir de variables causales vs. des sous-ensembles de variables choisis arbitrairement.

Par exemple, vous pouvez délibérément construire un modèle concurrent qui ignore les variables suggérées par l’analyse causale de RATH, puis comparer les résultats :

Causal Analysis Prediction Test

En règle générale, le modèle guidé par le graphe causal obtient une meilleure accuracy et une meilleure généralisation qu’une sélection de variables naïve :

Causal Analysis Prediction Test

RATH est particulièrement adapté aux grands jeux de données à haute dimensionnalité comportant de nombreuses variables. L’analyse causale vous aide à identifier automatiquement de meilleures variables, conduisant à des modèles de machine learning plus précis et plus interprétables.


Modifier le modèle causal

Les données réelles sont désordonnées. Il arrive que le graphe causal généré automatiquement par RATH ne corresponde pas entièrement à votre connaissance métier, en raison de :

  • Bruit dans les données
  • Taille d’échantillon insuffisante
  • Variables manquantes
  • Contraintes connues que l’algorithme ne peut pas inférer

Dans ces cas, vous pouvez éditer directement le modèle causal.

  1. Ouvrez le panneau situé à gauche.
  2. Activez Modify Constraints.

Causal Analysis editing

Ensuite :

  • Glissez-déposez les nœuds pour ajouter, supprimer ou réorienter les arêtes.
  • Encodez vos connaissances métier (par exemple, « la variable A ne peut pas être causée par la variable B »).
  • Laissez RATH régénérer de nouveaux modèles causaux qui respectent vos contraintes.

Causal Analysis editing

Ce cycle serré entre découverte automatique et raffinement manuel vous aide à converger vers un modèle causal à la fois statistiquement plausible et aligné avec l’expertise métier.


Prochaines étapes

Une fois que vous disposez d’un modèle causal, vous pouvez aller plus loin avec RATH :

  • Apprenez l’analyse causale de type “what-if” en explorant le chapitre What-if Analysis. Vous y simulerez des interventions (par ex. « Que se passe-t-il pour Outcome si l’on réduit Glucose de X ? ») directement sur le modèle causal.
  • Découvrez des motifs dans des champs textuels avec Text Pattern Extraction, puis réinjectez ces variables extraites dans l’analyse causale.

RATH évolue également vers des explications narratives, basées sur le texte, des modèles causaux — en générant automatiquement des insights et des suggestions de décisions directement à partir de la structure et des estimations de votre graphe causal.

En combinant découverte causale visuelle, exploration interactive et modélisation prédictive, RATH transforme vos jeux de données en insights actionnables et explicables — pas seulement en tableaux de bord statiques.