Data Profiling
Was ist Datenprofilierung
Datenprofilierung ist der Prozess der Untersuchung und Analyse von Daten, um ein besseres Verständnis für deren Struktur, Inhalt und Qualität zu gewinnen. Dabei werden Statistiken und Metriken zu Datenattributen wie Datentyp, Länge, Muster und Vollständigkeit erhoben, um potenzielle Probleme und Inkonsistenzen zu identifizieren, die sich auf die Datenqualität auswirken können.
Das Ziel der Datenprofilierung ist es, einen umfassenden Überblick über die Daten zu liefern und Datenverwaltung, Datenbereinigung und Datenintegration zu unterstützen.
Datenprofilierung mit RATH
Nachdem Sie RATH mit Ihrer Datenquelle verbunden haben, können Sie auf der Registerkarte Datenquelle eine Gesamtübersicht Ihrer Daten anzeigen. Auf dieser Seite können Sie die Verteilung und Grundstatistiken Ihrer Datenquelle mit drei verschiedenen Optionen überprüfen.
- Tabellenansicht: Hier können Sie einen schnellen Überblick über Ihre Daten in Form einer Tabelle erhalten.
- Metaansicht: Hier können Sie die Metadaten überprüfen. bewährte Praxis: Verwenden Sie die Metaansicht, um schnell die Typen der Datenfelder zu konfigurieren.
- Statistikansicht: Hier können Sie Informationen zur statistischen Verteilung Ihrer Datenquelle überprüfen. bewährte Praxis: Verwenden Sie diese Ansicht für statistische Analysen und die Analyse der Datenverteilung.
Tabellenansicht
In der Tabellenansicht können Sie einen schnellen Überblick über die verfügbaren Datenfelder erhalten und somit eine allgemeine Vorstellung davon bekommen, worum es sich bei diesem Datensatz handelt.
Bewegen Sie den Mauszeiger über das spezifische Datenfeld, das Sie bearbeiten möchten. In diesem Beispiel möchten wir das Feld date
ändern.
-
Klicken Sie auf die "Stift"-Schaltfläche auf der rechten Seite von
date
, um den Namen dieses Feldes zu ändern. -
Klicken Sie auf die "Glühbirnen"-Schaltfläche auf der rechten Seite von
date
, um dieses Feld mit der Funktion zur halbautomatischen Exploration zu erkunden. -
Klicken Sie auf die Schaltfläche "Transformieren", um dieses Feld zu transformieren. In diesem Fall erkennt RATH das Feld
date
automatisch als DateTime-Feld und schlägt vor, das Feld nach Zeiteinheiten zu gruppieren. -
Ändern Sie die Dimension dieses Feldes.
- Für die Datentypen können Sie zwischen nominal, ordinal, quantitativ und temporal wählen.
- Weitere Informationen zu diesen 4 verschiedenen Datentypen finden Sie in dieser Dokumentation (opens in a new tab).
-
Deaktivieren Sie die Option "Feld verwenden", um dieses Feld aus Ihrem Datensatz zu entfernen.
Die Konzepte von Dimensionen und Maßen stammen aus dem Bereich Business Intelligence (BI). In einem strengen Sinne:
- Eine Dimension ist eine unabhängige Variable, während ein Maß eine abhängige Variable ist.
- Oder, eine Dimension ist eine Feature-Variable, während ein Maß die Zielvariable ist.
RATH hilft Ihnen automatisch dabei, Dimensionen und Maße zuzuordnen.
Bewährte Praxis: Bei unerforschten Datensätzen können Sie RATH verwenden, um schnell Analyseergebnisse zu generieren. Später können Sie die Feldtypen entsprechend Ihren Erkenntnissen anpassen.
Metaansicht
Die Metaansicht ist eine alternative Möglichkeit, Ihre Datensätze zu überblicken, jedoch mit mehr Fokus auf die Metadaten.
Sie können die Felder leicht ändern, die analytischen und semantischen Typen ändern, filtern, erkunden oder transformieren usw.
Statistikansicht
In der Statistikansicht zeigt RATH alle Ansichten zur Datenverteilung in Ihrem Datensatz im linken Bereich an. Sie können auf ein beliebiges Feld klicken, um detaillierte Informationen zu diesem Feld zu erhalten, z. B. eindeutige Werte, maximalen und minimalen Wert, mittleren Wert, Quantil, Standardabweichung usw.
Sie können einen Teil des Felds auswählen. RATH generiert automatisch Datenstatistiken für den ausgewählten Teil.
Verschieben Sie das ausgewählte Feld durch Ziehen und Ablegen. Die ausgewählten Datenstatistiken ändern sich entsprechend.