Transformiere deine Daten
Die Datentransformation ist ein Prozess, der dir hilft, deine Rohdaten für die Analyse und Modellierung vorzubereiten. Sie besteht aus vier Hauptschritten, um sicherzustellen, dass deine Daten genau und zuverlässig sind.
-
Datenbereinigung: In diesem Schritt werden Fehler, Inkonsistenzen und fehlende Werte in deinen Daten korrigiert.
-
Datensortierung: Dieser Schritt ermöglicht es dir, nur die Daten auszuwählen, die für deine Analyse relevant sind.
-
Datentransformation: In diesem Schritt wird das Format deiner Daten so geändert, dass es einfacher zu verarbeiten ist.
-
Datenauswahl: In diesem Schritt wird ein kleinerer Teil deiner Daten ausgewählt, um Zeit und Ressourcen zu sparen.
Durch das Befolgen dieser Schritte kannst du mit qualitativ hochwertigen Daten arbeiten, die dir genaue Ergebnisse für deine Analyse und Modellierung liefern.
Datenbereinigung mit RATH
Datenbereinigung
Die Datenbereinigung ist der Prozess, bei dem inkorrekte, beschädigte, falsch formatierte, duplizierte oder unvollständige Daten aus einem Datensatz korrigiert oder entfernt werden. Durch eine ordnungsgemäße Datenbereinigung kann die Qualität der Analyse verbessert werden.
Vor der Verwendung von RATH zur Datenbereinigung solltest du sicherstellen, dass deine Datensätze standardisierte Datenformate haben. Diese umfassen:
- Datums- und Uhrzeitdaten: müssen im Format
YYYY-MM-DD
standardisiert sein. - Numerische Daten: sollten korrekt sein. Zum Beispiel sollte bei einem Datensatz für Supermarkt-Verkaufsaufzeichnungen der Verkaufspreis als
100
standardisiert werden, statt$100
oder100 Dollar
.
Um RATH für die Datenbereinigung zu verwenden, importiere einfach deine Daten aus einer Datenquelle. RATH kann deine Daten automatisch bereinigen.
Du kannst auch eine Option aus dem Dropdown-Menü Bereinigungsmethode im Tab Datenquelle auswählen.
Wähle eine Option aus, die deinen Anforderungen entspricht, um fortzufahren.
Datensortierung
Mit RATH kannst du auch Daten durchsuchen. Wechsele zur Metavoransicht und klicke auf die Schaltfläche "Filter" für ein bestimmtes Feld.
Aktiviere den Filter und wähle einen bestimmten Bereich oder Wertesatz aus. Im obigen Beispiel wählen wir die Daten aus, deren Temperatur zwischen 20 und 30 Grad liegt.
Wenn du nur Anomalien entfernen möchtest, wähle die Schaltfläche Schnelle Auswahl und verwende die Funktion zum schnellen Filtern, um die Hauptteile der Daten zu erhalten. Du kannst weitere Details im folgenden Bildschirm konfigurieren:
Datentransformation
Wähle in der Ansicht Tabelle oder Meta die Option Transformationen für ein bestimmtes Feld aus. RATH kann automatisch Vorschläge für die Datentransformation generieren.
Wenn du beispielsweise ein DateTime-Objekt auswählst, schlägt RATH vor, DateTime nach Zeiteinheiten zu gruppieren:
Für kategoriale Variablen wird RATH vorschlagen, den One-Hot Encoding-Algorithmus zu verwenden.
Wenn RATH potenzielle Anomalien in einem bestimmten Feld erkennt, wird RATH vorschlagen, den Isolation Forest-Algorithmus zu verwenden.
Datenauswahl
Die Datenauswahl ist der Prozess der Auswahl eines repräsentativen Teils von Daten aus einem größeren Datensatz, um Rückschlüsse auf die Gesamtbevölkerung zu ziehen. Sie ermöglicht eine effiziente und effektive Exploration und Analyse, reduziert die zu verarbeitende Datenmenge und liefert gleichzeitig genaue Erkenntnisse.
Weitere Informationen zur Datenauswahl findest du in den entsprechenden Abschnitten im Kapitel Daten anschließen.