Skip to content
RATH
Ursachen entdecken
Kausalanalyse

Kausalanalyse

RATH stellt einen visuellen, no-code Workflow bereit, um kausale Zusammenhänge in deinen Daten zu finden und zu untersuchen. Anstatt bei einfachen Korrelationen stehenzubleiben, kannst du potenzielle Ursachen entdecken, Hypothesen testen und bessere Machine‑Learning‑Modelle aufbauen – alles über einen interaktiven Kausalgraphen.

In dieser Anleitung wirst du:

  • Verstehen, was Kausalanalyse ist und wann du sie einsetzen solltest.
  • Den Schritt-für-Schritt-Workflow zur Durchführung einer Kausalanalyse in RATH kennenlernen.
  • Ein konkretes Beispiel mit dem Kaggle‑Datensatz „Diabetes“ durchgehen.
  • Erweiterte Werkzeuge wie Vergleichsanalyse, gegenseitige Inspektion, Prognosetests und manuelle Modellbearbeitung erkunden.

Was ist Kausalanalyse?

Kausalanalyse ist der Prozess, Beziehungen zwischen Variablen zu untersuchen, um festzustellen, ob Änderungen in einer Variablen Ursache für Änderungen in einer anderen sind – und nicht nur, ob sie sich gemeinsam bewegen.

In der Praxis bedeutet das:

  • Variablen zu identifizieren, die einen interessierenden Zielwert beeinflussen könnten.
  • Ein kausales Modell (oft einen gerichteten Graphen) aufzubauen, das Annahmen oder gelernte Zusammenhänge kodiert.
  • Statistische und algorithmische Techniken zu verwenden, um Stärke und Richtung dieser Effekte zu schätzen.
  • Hypothesen zu testen und zu verfeinern, anstatt sich nur auf Korrelationen oder Feature Importance zu verlassen.

Da die meisten Realwelt‑Daten beobachtend sind (nicht aus kontrollierten Experimenten stammen), garantiert Kausalanalyse keine „wahre Kausalität“, hilft dir aber, deutlich stärkere und besser interpretierbare Hypothesen zu generieren und zu validieren als mit Korrelation allein.


Wie führt man eine Kausalanalyse mit RATH durch?

RATH verpackt komplexe Techniken zur Kausalentdeckung in einen interaktiven Workflow. Auf hoher Ebene gehst du so vor:

  1. Daten anbinden und vorbereiten

    • Importiere deinen Datensatz in RATH.
    • Bereinige ungültige Einträge und stelle sicher, dass wichtige Felder korrekt typisiert sind (numerisch, kategorisch usw.).
  2. Felder und optionale Abhängigkeiten konfigurieren

    • Wähle die Felder aus, die im kausalen Modell enthalten sein sollen.
    • Deklariere optional bekannte funktionale Abhängigkeiten (z. B. abgeleitete Felder, Formeln), damit RATH sie bei der Entdeckung berücksichtigt.
  3. Kausalentdeckung ausführen

    • Starte den Workflow Causal Analysis und lass RATH aus deinen Daten einen Kausalgraphen ableiten.
  4. Zusammenhänge erkunden und validieren

    • Nutze Werkzeuge wie Field Insights, Manual Exploration und Mutual Inspection, um das gefundene Modell mit deinem Domänenwissen zu überprüfen und zu verfeinern.
  5. Prädiktive Modelle aufbauen und testen

    • Verwende Prediction Test, um Machine‑Learning‑Modelle basierend auf dem Kausalgraphen zu erstellen und sie mit alternativen Feature‑Sets zu vergleichen.
  6. Kausales Modell bearbeiten und finalisieren

    • Passe das Modell manuell an, wenn du zusätzliche Kenntnisse hast oder die Daten verrauscht bzw. unvollständig sind.

Die folgenden Abschnitte führen dich mit einem realen Beispiel durch diesen Workflow.


Fallstudie: Kausalanalyse der „Diabetes Database“ von Kaggle

Als konkretes Beispiel betrachten wir die „Diabetes Database“ von Kaggle (opens in a new tab) in RATH. Unser Ziel ist zu verstehen, welche Faktoren den Outcome (Diabetesdiagnose) am stärksten beeinflussen und wie sie miteinander interagieren.

Datensatz vorbereiten und bereinigen

  1. Importiere den Datensatz in RATH.
  2. Entferne ungültige Einträge, bei denen BMI, BloodPressures oder SkinThickness gleich 0 sind.
    Auf dem Tab DataSource:
    • Klicke auf Clean Method.
    • Wähle drop null records, um Zeilen mit ungültigen Werten herauszufiltern.

Sobald die Daten bereinigt sind, öffne das Dropdown-Menü rechts neben der Schaltfläche Start Analysis und wähle Causal Analysis, um den Workflow zu starten.


Schritt 1: Data Configuration

In Data Configuration wählst du aus, welche Felder in die Kausalanalyse einfließen sollen.

  • Wähle alle relevanten Variablen aus (z. B. Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI, DiabetesPedigreeFunction, Age und Outcome).
  • Schließe optional Felder aus, von denen du weißt, dass sie irrelevant oder zu verrauscht sind.

Wenn du fertig bist, klicke auf Next, um fortzufahren.

Causal analysis data configuration

Tipp: Beginne mit allen potenziell relevanten Variablen und verfeinere später auf Basis deines Kausalmodells und der Prognoseergebnisse.


Schritt 2: (Optional) Functional Dependencies

In vielen Datensätzen sind manche Felder von anderen abgeleitet (z. B. berechnete Verhältnisse, formatierte IDs oder Felder, die durch SQL‑Formeln erzeugt werden). Wenn du diese Beziehungen im Voraus deklarierst, hilft das RATH, irreführende kausale Verknüpfungen zu vermeiden.

Im Schritt Functional Dependencies kannst du:

  • RATH deine Daten automatisch analysieren lassen und Vorschläge für Abhängigkeiten erhalten.
  • Beziehungen manuell angeben, wenn du sie bereits kennst (z. B. TotalAmount = Quantity × UnitPrice).

RATH analysiert die Werte verschiedener Variablen und berechnet mögliche funktionale Beziehungen. Du kannst vorgeschlagene Abhängigkeiten übernehmen, bearbeiten oder eigene hinzufügen.

Causal analysis of functional dependencies

Best Practice:
Wenn einige deiner Daten mithilfe von regulären Ausdrücken oder SQL‑Formeln generiert werden, deklariere deren Abhängigkeiten hier. Wenn diese abgeleiteten Felder innerhalb von RATH erzeugt werden, musst du häufig nichts tun – RATH behandelt sie automatisch korrekt.


Schritt 3: Causal Model

Klicke auf Causal Discovery, damit RATH aus den konfigurierten Feldern ein kausales Modell ableitet.

Der Screenshot unten zeigt ein typisches Ergebnis der Kausalentdeckung für den Diabetes‑Datensatz:

Causal Analysis diabetes

In diesem Beispiel gehören zu den wichtigsten Beziehungen:

  • GlucoseOutcome
    Höhere Glukosewerte erhöhen die Wahrscheinlichkeit einer positiven Diabetesdiagnose.
  • InsulinGlucoseOutcome
    Insulin beeinflusst Glukose, und Glukose beeinflusst wiederum das Diabetes‑Ergebnis.
  • AgeOutcome (und teilweise beeinflusst durch verwandte Gesundheitsfaktoren)
    Das Alter trägt zur Wahrscheinlichkeit bei, an Diabetes zu erkranken.

Der interaktive Graph ist dein zentrales Arbeitsfeld:

  • Klicke auf einen Knoten, um seine direkten Ursachen und Wirkungen hervorzuheben.
  • Untersuche die Kantendicke oder Stärkeindikatoren, um zu verstehen, wie stark ein Zusammenhang ist.
  • Nutze das rechte Panel, um verschiedene Werkzeuge (Field Insights, Manual Exploration, Mutual Inspection, Prediction Test) für die ausgewählte Variable aufzurufen.

Interaction with Causal Analysis Graphic Interaction with Causal Analysis Graphic


Schritt 3.1: Vergleichsanalyse mit Field Insights

Die Vergleichsanalyse ermöglicht es dir, zwei Gruppen zu vergleichen – z. B. Patienten mit und ohne Diabetes – und die Unterschiede mithilfe deines Kausalmodells zu erklären.

RATH unterstützt mehrere Vergleichsmodi:

  • Subset vs. Whole
    (z. B. Januar vs. das ganze Jahr)
  • Subset vs. Complement
    (Januar vs. „alles außer Januar“)
  • Subset vs. Another Subset
    (Januar vs. Juni)

Du kannst diese Vergleiche verwenden, um:

  • Potenzielle kausale Faktoren hinter Anomalien oder Ausreißern zu untersuchen.
  • Kausale Hypothesen anhand realer Verteilungen zu überprüfen und zu verfeinern.

Beispiel: Analyse von Outcome

  1. Öffne den Tab Field Insight.
  2. Klicke links auf den Knoten Outcome.
  3. Sieh dir rechts die Verteilungen von Personen mit und ohne Diabetes an.
  4. Klicke auf eine der Verteilungen (z. B. positive Outcomes), um eine Vergleichsanalyse zu starten.

Als Nächstes wählst du die Kontrollgruppe und eine wichtige Variable wie Glucose aus und klickst auf Causal Discovery, damit RATH mögliche zugrunde liegende Ursachen analysiert. RATH nutzt Ursache‑Wirkungs‑Diagramme, um Erklärungen für die beobachteten Unterschiede vorzuschlagen.

Causal Analysis Comparative Analysis

Im Diabetes‑Beispiel zeigt ein Vergleich von Patienten mit und ohne Diabetes häufig, dass die Unterschiede hauptsächlich durch folgende Variablen getrieben werden:

  • BMI
  • Age
  • Glucose

Wenn du auf den latenten Faktor Glucose klickst, siehst du, dass die Glukoseverteilungen in der Diabetesgruppe (orange hervorgehoben) deutlich höher liegen.

Causal Analysis Comparative Analysis


Schritt 3.2: Manual Exploration

Mit Manual Exploration kannst du bestimmte kausale Annahmen visuell testen.

Für den Diabetes‑Datensatz möchtest du beispielsweise prüfen:

  • Ob Insulin eine direkte Ursache von Outcome ist.
  • Wie sich die Beziehung zwischen Glucose und Outcome verändert, wenn du Insulin kontrollierst.

Mit Manual Exploration kannst du:

  1. Outcome gegenüber Glucose darstellen und die Verteilungen zwischen erkrankten und gesunden Gruppen vergleichen.
  2. Insulin als konditionierende Variable hinzufügen (z. B. die Daten in Intervalle der Insulinwerte aufteilen).

Causal Analysis Manual Exploration

Traditionelle Analysen bleiben oft bei Korrelation oder Feature Importance stehen und übersehen, wie eine Variable ihren Einfluss ausübt. Durch die Einbindung von Causal Analysis hilft RATH, diese Mechanismen aufzudecken und zeigt, wann ein scheinbarer Effekt teilweise durch eine andere Variable erklärt wird.

Causal Analysis Manual Exploration

Beispielsweise kann sich nach der Einführung von Insulin zwischen Outcome und Glucose Folgendes zeigen:

  • Wenn du für unterschiedliche Insulin‑Intervalle kontrollierst, verschwindet der Unterschied im Insulin zwischen erkrankten und gesunden Gruppen möglicherweise.
  • Das deutet darauf hin, dass die direkte Beziehung zwischen Outcome und Glucose schwächer ist, als zunächst angenommen, sobald der Einfluss von Insulin berücksichtigt wird.

Schritt 3.3: Mutual Inspection

Das Werkzeug Mutual Inspection bietet eine weitere Möglichkeit, kausale Beziehungen zu untersuchen und Annahmen zu überprüfen.

So funktioniert es:

  1. Klicke auf einen Knoten im Kausalgraphen, um seine Verteilung dem Prüfmodul auf der rechten Seite hinzuzufügen.
  2. Um etwa die Beziehung zwischen Glucose und Outcome zu untersuchen, füge beide Variablen hinzu.
  3. Wähle einen Bereich von Glucose, ziehe den Bereich und beobachte, wie sich die Verteilung von Outcome verändert.

Causal Analysis Mutual Inspection

Indem du durch verschiedene Glukosewerte „fegst“ und die Reaktion der Outcome-Verteilung beobachtest, kannst du visuell eine positive Korrelation und deren Stärke über die Daten hinweg bestätigen.

Causal Analysis Mutual Inspection

Um noch weiterzugehen, klicke auf associate views, um Semi-auto Exploration zu aktivieren. RATH empfiehlt dann Scatterplots und andere Visualisierungen, die mögliche Beziehungen zwischen den ausgewählten Variablen hervorheben und dir helfen, zusätzliche Muster schneller zu entdecken.

Causal Analysis Mutual Inspection


Schritt 3.4: Prediction Test

Sobald du ein kausales Modell hast, kannst du es in ein prädiktives Machine‑Learning‑Modell überführen und seine Leistung mit Prediction Test bewerten.

  1. Klicke im Kausalgraphen auf die Variable Outcome.
    RATH konstruiert automatisch ein einfaches Klassifikations- oder Regressionsmodell unter Verwendung kausaler Eltern und verwandter Variablen.

Causal Analysis Prediction Test

  1. Klicke auf Classification, um das Modell zu trainieren und seine Accuracy (und weitere Metriken je nach Konfiguration) zu berechnen.

Causal Analysis Prediction Test

  1. Passe deine Teststrategie an:
    • Nutze den Kausalgraphen, um effizientere oder besser interpretierbare Feature‑Sets auszuwählen.
    • Vergleiche Modelle, die auf kausalen Features basieren, mit Modellen auf Basis beliebiger Feature‑Subset‑Auswahlen.

Du kannst beispielsweise bewusst ein konkurrierendes Modell aufbauen, das die von der Kausalanalyse in RATH vorgeschlagenen Features vermeidet, und anschließend die Ergebnisse vergleichen:

Causal Analysis Prediction Test

Typischerweise erreicht das vom Kausalgraphen geführte Modell höhere Genauigkeit und bessere Generalisierung als naive Feature‑Auswahlen:

Causal Analysis Prediction Test

RATH eignet sich besonders gut für große, hochdimensionale Datensätze mit vielen Variablen. Die Kausalanalyse hilft dir, bessere Features automatisch zu identifizieren und dadurch genauere und besser interpretierbare Machine‑Learning‑Modelle zu bauen.


Kausales Modell bearbeiten

Reale Daten sind unordentlich. Manchmal stimmt der automatisch von RATH erzeugte Kausalgraph aufgrund von:

  • Datenrauschen
  • unzureichender Stichprobengröße
  • fehlenden Variablen
  • bekannten Einschränkungen, die der Algorithmus nicht ableiten kann

nicht vollständig mit deinem Domänenwissen überein.

In solchen Fällen kannst du das kausale Modell direkt bearbeiten.

  1. Öffne das Panel auf der linken Seite.
  2. Schalte Modify Constraints ein.

Causal Analysis editing

Dann kannst du:

  • Knoten per Drag & Drop bewegen, Kanten hinzufügen, entfernen oder neu ausrichten.
  • Domänenwissen kodieren (z. B. „Variable A kann nicht von Variable B verursacht sein“).
  • RATH neue Kausalmodelle generieren lassen, die deine Einschränkungen respektieren.

Causal Analysis editing

Diese enge Schleife zwischen automatischer Entdeckung und manueller Verfeinerung hilft dir, ein Kausalmodell zu entwickeln, das sowohl statistisch plausibel ist als auch mit Expertenwissen übereinstimmt.


Nächste Schritte

Sobald du ein kausales Modell hast, kannst du mit RATH noch weitergehen:

  • Lerne What-if‑Kausalanalysen kennen, indem du das Kapitel What-if Analysis erkundest. Du simulierst Interventionen (z. B. „Was passiert mit Outcome, wenn wir Glucose um X senken?“) direkt im Kausalmodell.
  • Entdecke Muster in Textfeldern mit Text Pattern Extraction und speise diese extrahierten Features anschließend wieder in die Kausalanalyse ein.

RATH entwickelt sich außerdem hin zu narrativen, textbasierten Erklärungen von Kausalmodellen – es werden automatisch Erkenntnisse und Handlungsempfehlungen direkt aus der Struktur und den Schätzungen in deinem Kausalgraphen generiert.

Durch die Kombination aus visueller Kausalentdeckung, interaktiver Exploration und prädiktivem Modeling verwandelt RATH deine Datensätze in umsetzbare, erklärbare Erkenntnisse – statt in bloße statische Dashboards.