Skip to content
RATH
Préparer les données
Data Profiling

Profilage de données

Qu'est-ce que le profilage de données

Le profilage de données est le processus d'examen et d'analyse des données afin de mieux comprendre leur structure, leur contenu et leur qualité. Il implique la collecte de statistiques et de métriques sur les attributs des données, tels que le type de données, la longueur, le modèle et l'exhaustivité, afin d'identifier les problèmes potentiels et les incohérences qui peuvent affecter la qualité des données.

Le but du profilage de données est de fournir une vue d'ensemble complète des données et de soutenir les activités de gouvernance des données, de nettoyage des données et d'intégration des données.

Profilage de données avec RATH

Après avoir connecté RATH à votre source de données, vous pouvez accéder à une vision d'ensemble de vos données dans l'onglet Source de données. Sur cette page, vous pouvez accéder à la distribution et aux statistiques de base de votre source de données, avec trois options différentes pour visualiser votre source de données.

  • Vue de table : où vous pouvez jeter un coup d'œil sur vos données sous forme de tableau.
  • Vue méta : où vous pouvez consulter les métadonnées. Bonne pratique : utilisez la vue méta pour configurer rapidement les types de champs de données.
  • Vue statistique : où vous pouvez consulter les informations statistiques de votre source de données. Bonne pratique : utilisez cette vue pour l'analyse statistique et la distribution des données. Vues de données

Vue de table

Sur la vue de table, vous pouvez jeter un coup d'œil rapide aux champs de données disponibles, vous donnant ainsi une idée générale de ce que contient cet ensemble de données. Vue de table

Placez le curseur de la souris sur le champ de données spécifique que vous souhaitez modifier. Dans cet exemple, nous essayons de modifier le champ date. Modifier les champs dans la vue de table

  • Cliquez sur le bouton "stylo" à droite de date pour changer le nom de ce champ.

  • Cliquez sur le bouton "ampoule" à droite de date pour explorer ce champ avec la fonction Exploration semi-automatique.

  • Cliquez sur le bouton "Transformer" pour transformer ce champ. Dans ce cas, RATH détecte automatiquement le champ date comme un champ DateTime et suggère de regrouper le champ par unités de temps. Transformer les champs dans la vue de table

  • Changez la dimension de ce champ.

    • Pour les types de données, vous pouvez choisir entre nominal, ordinal, quantitatif et temporel.
    • Consultez cette documentation (opens in a new tab) pour en savoir plus sur ces 4 types de données différents.
  • Décochez l'option "utiliser le champ" pour désélectionner ce champ de votre ensemble de données.

Les concepts de dimensions et de mesures sont empruntés à l'intelligence d'affaires (IA). Dans un sens strict :

  • Une dimension est une variable indépendante, tandis qu'une mesure est une variable dépendante.
  • Ou, une dimension est une variable de caractéristique, tandis qu'une mesure est une variable cible.

RATH vous aidera automatiquement à attribuer les dimensions et les mesures.

Bonne pratique : pour les ensembles de données non explorés, vous pouvez utiliser RATH pour générer des résultats d'analyse rapides. Ensuite, vous pouvez ajuster les types de champ selon votre compréhension.

Vue méta

La vue méta est une alternative pour observer vos ensembles de données, mais en mettant davantage l'accent sur les métadonnées. Vue méta

Vous pouvez facilement modifier les champs, changer les types analytiques et sémantiques, filtrer, explorer ou transformer les champs, etc.

Vue statistique

Sur la vue statistique, RATH affiche toutes les vues de distribution de vos données dans le volet gauche. Vous pouvez cliquer sur n'importe quel champ pour obtenir des informations détaillées sur ce champ, notamment les valeurs uniques, la valeur maximale et minimale, la valeur médiane, les quartiles, l'écart-type, etc. Vue statistique

Vous pouvez sélectionner une partie du champ. RATH générera automatiquement des statistiques sur les données pour la partie sélectionnée. Sélectionner

Déplacez le champ sélectionné en le faisant glisser. Les statistiques sur les données sélectionnées changent en conséquence. Sélectionner des données dans la vue statistique