Kausalanalyse

Was ist eine Kausalanalyse?

Eine Kausalanalyse bezeichnet den Prozess der Untersuchung der Beziehung zwischen zwei oder mehr Variablen, um festzustellen, ob eine Variable einen kausalen Effekt auf die andere hat. Dies beinhaltet die Identifizierung der Variablen, die für ein bestimmtes Ergebnis verantwortlich sein können, und die Verwendung statistischer Techniken, um festzustellen, ob eine kausale Beziehung zwischen ihnen besteht.

Durchführung einer Kausalanalyse mit RATH

Um eine Kausalanalyse mit RATH durchzuführen, können Sie folgende Schritte befolgen:

Identifizieren Sie die interessierenden Variablen und sammeln Sie relevante Daten.
Analysieren Sie die Daten mithilfe statistischer Techniken, um festzustellen, ob eine signifikante Beziehung zwischen den Variablen besteht.
Ziehen Sie Schlussfolgerungen über die kausale Beziehung zwischen den Variablen.

Fallstudie: Kausalanalyse der "Diabetes-Datenbank" von Kaggle

Als Beispiel möchten wir die "Diabetes-Datenbank" von Kaggle (opens in a new tab) mithilfe von RATH für die Kausalanalyse untersuchen. Importieren Sie zuerst die Datenbank in RATH und bereinigen Sie die Daten, indem Sie ungültige Daten mit BMI, Blutdruck und Hautdichte, die gleich 0 sind, entfernen. Klicken Sie auf der Registerkarte Datenquelle auf die Schaltfläche Bereinigungsmethode und wählen Sie die Option Löschen von NULL-Datensätzen.

Nachdem die Daten bereinigt wurden, klicken Sie auf das Dropdown-Menü rechts neben der Schaltfläche Analyse starten und wählen Sie die Option Kausalanalyse.

Schritt 1: Datenkonfiguration

Um eine Kausalanalyse durchzuführen, wählen Sie alle Datenfelder aus, die Sie einschließen möchten. Zum Beispiel können Sie sich auf einen bestimmten Teil der Daten oder nur auf die Daten konzentrieren, die für Ihre Analyse relevant sind. Klicken Sie auf die Schaltfläche Weiter, um fortzufahren. Kausalanalyse Datenkonfiguration

Schritt 2: (Optional) Funktionale Abhängigkeiten

Bearbeiten Sie die Abhängigkeiten zwischen bekannten Variablen, um die Genauigkeit des Kausalanalyseprozesses zu erhöhen. Sie können beispielsweise RATH über weniger offensichtliche Beziehungen zwischen Variablen informieren.

Das folgende Screenshot zeigt ein Beispiel dafür, wie RATH automatisch funktionale Abhängigkeiten für Ihre Datenbank erstellt. RATH analysiert die Werte verschiedener Variablen und berechnet die möglichen Beziehungen. Sie können hier Ihre eigenen Abhängigkeiten erstellen. Kausalanalyse funktionaler Abhängigkeiten

Beste Praxis: Wenn einige Ihrer Daten mit regulären Ausdrücken oder SQL-Formeln generiert werden, wird empfohlen, ihre Abhängigkeiten in diesem Schritt anzugeben. Wenn Sie diese Daten mit RATH generieren, ist es nicht erforderlich, Abhängigkeiten in diesem Schritt zu erstellen, da RATH die Arbeit automatisch erledigt.

Schritt 3: Kausalmodell

Klicken Sie auf die Schaltfläche Kausale Entdeckung, um den Kausalanalyseprozess zu starten.

Der folgende Screenshot zeigt das Ergebnis der kausalen Entdeckung für die "Diabetes"-Datenbank: Kausalanalyse Diabetes

Die Faktoren, die dieses Modell beeinflussen, sind:

Glucose: Die Menge an Glukose im Körper, die das Ergebnis beeinflusst.
Insulin: Die Menge an Insulin im Körper, die die Glukose beeinflusst, die wiederum beeinflusst, ob man Diabetes entwickelt.
Alter: Das direkt von Insulin beeinflusst wird und das Ergebnis weiterhin beeinflusst.

Durch Klicken auf einen Knoten im interaktiven Diagramm werden die direkt damit verbundenen Knoten hervorgehoben, und die Stärke der Beziehung zwischen den beiden wird durch die Kante zwischen ihnen angezeigt. Auf der rechten Seite werden nach dem Klicken auf den Knoten auch verschiedene funktionale Module für weitere Erkundungen bereitgestellt. Interaktion mit graphischer Kausalanalyse

Schritt 3.1: Vergleichsanalyse mit Feldeinsichten

In der Datenanalyse ist die Vergleichsanalyse eine Methode, die darauf abzielt, die Unterschiede zwischen zwei Gruppen zu vergleichen und die Gründe für diese Unterschiede anhand eines kausalen Modells zu erklären. In der praktischen Anwendung kann die Vergleichsanalyse wertvolle Einsichten liefern, beispielsweise indem sie den Unterschied zwischen einer abnormalen Gruppe und dem Ganzen vergleicht, um die Ursache der Abnormalität zu analysieren.

RATH unterstützt die folgenden Arten von Vergleichsanalysen:

Vergleich der ausgewählten Abschnitte mit der gesamten Menge (z. B. Vergleich von Januar mit dem ganzen Jahr)
Vergleich der ausgewählten Abschnitte mit ihrer ergänzenden Menge (z. B. Vergleich von Januar mit anderen Zeiten außer Januar)
Vergleich der ausgewählten Abschnitte mit einer anderen spezifizierten Menge (z. B. Vergleich von Januar mit Juni)

Sie können die Funktion zur Vergleichsanalyse in RATH verwenden, um:

bei der Erforschung und Verständnis kausaler Beziehungen zu helfen.
kausale Hypothesen mit Felderkenntnissen überprüfen und erkunden.

Um zum Beispiel potenzielle kausale Beziehungen zur Variablen Outcome zu untersuchen, wechseln Sie zur Registerkarte Feldübersicht und klicken Sie auf den Knoten Outcome auf der linken Seite des Bildschirms. Auf der rechten Seite des Bildschirms wird die Verteilung der Personen mit und ohne Diabetes angezeigt. Klicken Sie auf eine der Verteilungen und starten Sie eine vergleichende Analyse.

Nachdem Sie die relevante Datensubmenge und die Kontrollgruppe identifiziert haben (in diesem Fall die Variable Glukose), wird durch Klicken auf die Schaltfläche Kausale Entdeckung eine Analyse potenzieller zugrunde liegender Ursachen initiiert. Dabei werden Ursache-Wirkungs-Diagramme verwendet, um mögliche Erklärungen vorzuschlagen. Vergleichsanalyse der Kausalanalyse Wie im gezeigten Beispiel gezeigt, offenbart ein Vergleich von diabetischen und nicht-diabetischen Patienten, dass der Unterschied zwischen den beiden Gruppen auf Faktoren wie BMI, Alter und Glukose zurückzuführen sein kann. Durch Klicken auf den latenten Faktor Glukose wird deutlich, dass sich die Verteilung der Glukose zwischen den beiden Gruppen signifikant unterscheidet, wobei die diabetische Bevölkerung eine höhere Verteilung aufweist, wie durch die orangefarbene Farbe angezeigt.

Schritt 3.2. Manuelle Exploration

Sie können die manuelle Exploration verwenden, um bestimmte Annahmen über Kausalität mithilfe einer visuellen Schnittstelle zu überprüfen.

Zum Beispiel zeigt die Erkundung der Kaggle-Datenbank mit dem Titel "Diabetes" , dass der Insulinspiegel keine direkte Ursache für Diabetes ist. Die Beziehung zwischen dem Ergebnis und der Glukose kann mithilfe dieser Tools visualisiert werden, wodurch deutlich wird, dass das Insulin der erkrankten Gruppe höher ist als das der gesunden Gruppe.

Um Daten traditionell zu analysieren, untersuchen wir oft die Korrelation zwischen Variablen oder die Bedeutung von Merkmalen, um Beziehungen zwischen zwei Variablen zu identifizieren. Dieser Ansatz kann jedoch den spezifischen Wirkmechanismus übersehen, der der Beziehung zugrunde liegt.

Um dies zu adressieren, bietet RATH eine kausale Analyse an, die uns hilft, die kausalen Beziehungen zwischen Variablen besser zu verstehen. Durch die Einbeziehung der Ergebnisse der kausalen Analyse gewinnen wir ein tieferes Verständnis des spezifischen Wirkmechanismus.

In der folgenden Grafik stellen wir Insulin zwischen den Variablen Ergebnis und Glukose vor. Wir beobachten, dass es keinen signifikanten Unterschied im Insulinspiegel zwischen der erkrankten und der gesunden Gruppe gibt, wenn verschiedene Insulin-Intervalle kontrolliert werden. Dies legt nahe, dass die Beziehung zwischen den Variablen Ergebnis und Glukose schwächer ist als wir ursprünglich dachten, wenn der Faktor Insulin eingeführt wird.

Schritt 3.3: Gegenseitige Untersuchung

Verwenden Sie das Werkzeug der gegenseitigen Untersuchung, um ein tieferes Verständnis für die kausale Beziehung Ihrer Daten zu gewinnen oder Annahmen über kausale Beziehungen zwischen Variablen zu überprüfen.

Dieses Werkzeug erzeugt interaktive Grafiken, die Ihnen helfen, zu verstehen, wie Variablen sich gegenseitig beeinflussen. Klicken Sie auf einen Knoten im Kausalitätsdiagramm, um das Verteilungsdiagramm der entsprechenden Variablen zum Überprüfungsmodul auf der rechten Seite hinzuzufügen. Wenn Sie zum Beispiel die Beziehung zwischen Glukose und Ergebnis in Ihrer Studie erkunden möchten, können Sie dieses Werkzeug verwenden.

Wenn wir einen Bereich von Glukose auswählen, diesen Bereich ziehen und die Verteilung von Ergebnis beobachten, können wir eine positive Korrelation zwischen den beiden Faktoren beobachten.

Sie können auch die Funktion der halbautomatischen Exploration verwenden, indem Sie auf die Schaltfläche Assoziierte Ansichten klicken, um die Beziehung zwischen den Variablen genauer zu untersuchen. Diese Funktion generiert empfohlene Streudiagramme, die Ihnen bei der Erkundung der möglichen Beziehung zwischen den beiden Faktoren helfen.

Schritt 3.4. Vorhersagetest

Fortgeschrittene Benutzer können mit der Funktion des Vorhersagetests maschinelle Lernmodelle debuggen und bereitstellen. Sie ermöglicht es Ihnen, kausale Modelle frei zu bearbeiten und fortschrittliche maschinelle Lernalgorithmen anzuwenden.

Klicken Sie auf die Variable Ergebnis und RATH erstellt automatisch ein einfaches maschinelles Lernmodell für Klassifikations- oder Regressionsaufgaben basierend auf Kausalität.

Klicken Sie auf die Schaltfläche Klassifikation, um das Modell zu trainieren und seine Genauigkeit zu ermitteln.

Sie können Ihre Teststrategie anpassen, indem Sie das kausale Modell beobachten und effizientere Einflussfaktoren gemäß der kausalen Beziehung auswählen, um Ihr kausales Modell anzupassen. Um den Vergleich zu ermöglichen, vermeiden wir bewusst die durch RATH aufgrund von Kausalität ausgewählten Funktionen und versuchen, ein anderes Modell zu trainieren.

Wie in der folgenden Grafik gezeigt, ist die Genauigkeit des von RATH erstellten Modells signifikant besser als das Modell, das wir für den Vergleich erstellt haben.

RATH ist besonders geeignet für die Bearbeitung großer Datenmengen mit einer großen Anzahl von Variablen. Es kann Ihnen dabei helfen, bessere Merkmale zu finden und genauere maschinelle Lernmodelle zu erstellen.

Kausales Modell bearbeiten

Manchmal liefert RATH aufgrund von Datenrauschen, unzureichenden Daten oder fehlenden Einflussfaktoren unbefriedigende Ergebnisse. In solchen Fällen können Sie das generierte kausale Modell direkt bearbeiten.

Um das Modell zu bearbeiten, öffnen Sie das Panel auf der linken Seite und aktivieren Sie die Option Beschränkungen bearbeiten, wie im Screenshot unten gezeigt.

Ziehen und lassen Sie fallen, um das kausale Modell zu bearbeiten. RATH erstellt automatisch neue kausale Modelle basierend auf Ihrer Eingabe.

Nächste Schritte

Wenn Sie ein Data Analyst sind und den kausalen What-if-Analysetyp erlernen möchten, siehe das Kapitel What-if-Analyse. Für die Entdeckung von Textmustern siehe das Kapitel Extraktion von Textmustern.

RATH arbeitet auch an benutzerfreundlicheren Funktionen wie der Fähigkeit, textbasierte Analysen zu generieren und Entscheidungsträgern Vorschläge zu machen, indem ein bestehendes kausales Beziehungsmodell analysiert wird.

Daten visualisieren Was-wäre-wenn-Analyse