Skip to content
RATH
Préparer les données
Transformation de vos données

Transformer Vos Données

La transformation de données est un processus qui vous aide à préparer vos données brutes pour l'analyse et la modélisation. Il comprend quatre principales étapes pour s'assurer que vos données sont précises et fiables.

  • Nettoyage des données: Cette étape consiste à corriger les erreurs, les incohérences et les valeurs manquantes dans vos données.

  • Filtrage des données: Cette étape vous permet de ne sélectionner que les données pertinentes pour votre analyse.

  • Transformation des données: Cette étape modifie le format de vos données pour les rendre plus faciles à utiliser.

  • Échantillonnage des données: Cette étape consiste à sélectionner une plus petite portion de vos données pour gagner du temps et des ressources.

En suivant ces étapes, vous pourrez travailler avec des données de haute qualité qui vous donneront des résultats précis de votre analyse et modélisation.

Manipulation de données avec RATH

Nettoyage des données

Le nettoyage des données consiste à corriger ou à supprimer les données incorrectes, corrompues, incorrectement formatées, en double ou incomplètes d'un ensemble de données. Un nettoyage approprié des données peut améliorer la qualité de l'analyse.

Avant d'utiliser RATH pour le nettoyage des données, assurez-vous que vos ensembles de données ont des formats de données standardisés. Ceux-ci comprennent :

  • Données DateTime : doivent être standardisées sous la forme AAAA-MM-JJ.
  • Données numériques : doivent être correctes. Par exemple, considérez un ensemble de données pour les enregistrements de ventes de supermarché. Les données de ventes doivent être standardisées sous la forme 100 au lieu de $100 ou 100 dollars.

Pour utiliser RATH pour le nettoyage des données, importez simplement vos données à partir d'une source de données. RATH peut automatiquement nettoyer vos données.

Vous pouvez également choisir une option dans le menu déroulant Méthode de nettoyage de l'onglet Source de données. Nettoyage des données avec RATH

Sélectionnez l'une des options qui correspond à votre besoin pour continuer.

Filtrage des données

Vous pouvez également filtrer vos données avec RATH. Accédez à la vue Meta et cliquez sur le bouton "Filtrer" d'un certain champ. Filtrage des données

Activez le filtre et sélectionnez une plage ou un ensemble de valeurs spécifique. Dans l'exemple ci-dessus, nous sélectionnons les données dont la température est comprise entre 20 et 30 degrés.

Si vous souhaitez simplement supprimer les anomalies, sélectionnez le bouton Sélection rapide et utilisez la fonction de filtrage rapide pour obtenir les principales parties des données. Vous pouvez configurer plus de détails dans l'écran suivant : Filtrage rapide des données

Transformation des données

Dans la vue Table ou Meta, sélectionnez l'option Transforms sur un champ donné. RATH peut générer automatiquement des suggestions de transformation des données.

Par exemple, si vous sélectionnez un objet DateTime, RATH vous suggérera de regrouper DateTime par unités de temps : Transformation des champs dans la vue table

Pour les variables catégorielles, RATH suggérera d'utiliser l'algorithme d'encodage One-hot. Transformation des champs dans la vue table

Si RATH détecte des anomalies potentielles dans un champ donné, RATH suggérera d'utiliser l'algorithme Isolation Forest. Transformation des champs dans la vue table

Échantillonnage des données

L'échantillonnage des données est le processus de sélection d'une partie représentative des données d'un ensemble de données plus important pour tirer des inférences sur la population globale. Il permet une exploration et une analyse efficaces, réduisant la quantité de données à traiter tout en fournissant des informations précises.

Pour plus de détails sur l'échantillonnage des données, consultez les sections connexes du chapitre Connectez vos données.