Transformer Vos Données
La transformation de données est un processus qui vous aide à préparer vos données brutes pour l'analyse et la modélisation. Il comprend quatre principales étapes pour s'assurer que vos données sont précises et fiables.
-
Nettoyage des données: Cette étape consiste à corriger les erreurs, les incohérences et les valeurs manquantes dans vos données.
-
Filtrage des données: Cette étape vous permet de ne sélectionner que les données pertinentes pour votre analyse.
-
Transformation des données: Cette étape modifie le format de vos données pour les rendre plus faciles à utiliser.
-
Échantillonnage des données: Cette étape consiste à sélectionner une plus petite portion de vos données pour gagner du temps et des ressources.
En suivant ces étapes, vous pourrez travailler avec des données de haute qualité qui vous donneront des résultats précis de votre analyse et modélisation.
Manipulation de données avec RATH
Nettoyage des données
Le nettoyage des données consiste à corriger ou à supprimer les données incorrectes, corrompues, incorrectement formatées, en double ou incomplètes d'un ensemble de données. Un nettoyage approprié des données peut améliorer la qualité de l'analyse.
Avant d'utiliser RATH pour le nettoyage des données, assurez-vous que vos ensembles de données ont des formats de données standardisés. Ceux-ci comprennent :
- Données DateTime : doivent être standardisées sous la forme
AAAA-MM-JJ
.- Données numériques : doivent être correctes. Par exemple, considérez un ensemble de données pour les enregistrements de ventes de supermarché. Les données de ventes doivent être standardisées sous la forme
100
au lieu de$100
ou100 dollars
.
Pour utiliser RATH pour le nettoyage des données, importez simplement vos données à partir d'une source de données. RATH peut automatiquement nettoyer vos données.
Vous pouvez également choisir une option dans le menu déroulant Méthode de nettoyage de l'onglet Source de données.
Sélectionnez l'une des options qui correspond à votre besoin pour continuer.
Filtrage des données
Vous pouvez également filtrer vos données avec RATH. Accédez à la vue Meta et cliquez sur le bouton "Filtrer" d'un certain champ.
Activez le filtre et sélectionnez une plage ou un ensemble de valeurs spécifique. Dans l'exemple ci-dessus, nous sélectionnons les données dont la température est comprise entre 20 et 30 degrés.
Si vous souhaitez simplement supprimer les anomalies, sélectionnez le bouton Sélection rapide et utilisez la fonction de filtrage rapide pour obtenir les principales parties des données. Vous pouvez configurer plus de détails dans l'écran suivant :
Transformation des données
Dans la vue Table ou Meta, sélectionnez l'option Transforms sur un champ donné. RATH peut générer automatiquement des suggestions de transformation des données.
Par exemple, si vous sélectionnez un objet DateTime, RATH vous suggérera de regrouper DateTime par unités de temps :
Pour les variables catégorielles, RATH suggérera d'utiliser l'algorithme d'encodage One-hot.
Si RATH détecte des anomalies potentielles dans un champ donné, RATH suggérera d'utiliser l'algorithme Isolation Forest.
Échantillonnage des données
L'échantillonnage des données est le processus de sélection d'une partie représentative des données d'un ensemble de données plus important pour tirer des inférences sur la population globale. Il permet une exploration et une analyse efficaces, réduisant la quantité de données à traiter tout en fournissant des informations précises.
Pour plus de détails sur l'échantillonnage des données, consultez les sections connexes du chapitre Connectez vos données.