Profilage de données
Qu'est-ce que le profilage de données
Le profilage de données est le processus d'examen et d'analyse des données afin de mieux comprendre leur structure, leur contenu et leur qualité. Il implique la collecte de statistiques et de métriques sur les attributs des données, tels que le type de données, la longueur, le modèle et l'exhaustivité, afin d'identifier les problèmes potentiels et les incohérences qui peuvent affecter la qualité des données.
Le but du profilage de données est de fournir une vue d'ensemble complète des données et de soutenir les activités de gouvernance des données, de nettoyage des données et d'intégration des données.
Profilage de données avec RATH
Après avoir connecté RATH à votre source de données, vous pouvez accéder à une vision d'ensemble de vos données dans l'onglet Source de données. Sur cette page, vous pouvez accéder à la distribution et aux statistiques de base de votre source de données, avec trois options différentes pour visualiser votre source de données.
- Vue de table : où vous pouvez jeter un coup d'œil sur vos données sous forme de tableau.
- Vue méta : où vous pouvez consulter les métadonnées. Bonne pratique : utilisez la vue méta pour configurer rapidement les types de champs de données.
- Vue statistique : où vous pouvez consulter les informations statistiques de votre source de données. Bonne pratique : utilisez cette vue pour l'analyse statistique et la distribution des données.
Vue de table
Sur la vue de table, vous pouvez jeter un coup d'œil rapide aux champs de données disponibles, vous donnant ainsi une idée générale de ce que contient cet ensemble de données.
Placez le curseur de la souris sur le champ de données spécifique que vous souhaitez modifier. Dans cet exemple, nous essayons de modifier le champ date
.
-
Cliquez sur le bouton "stylo" à droite de
date
pour changer le nom de ce champ. -
Cliquez sur le bouton "ampoule" à droite de
date
pour explorer ce champ avec la fonction Exploration semi-automatique. -
Cliquez sur le bouton "Transformer" pour transformer ce champ. Dans ce cas, RATH détecte automatiquement le champ
date
comme un champ DateTime et suggère de regrouper le champ par unités de temps. -
Changez la dimension de ce champ.
- Pour les types de données, vous pouvez choisir entre nominal, ordinal, quantitatif et temporel.
- Consultez cette documentation (opens in a new tab) pour en savoir plus sur ces 4 types de données différents.
-
Décochez l'option "utiliser le champ" pour désélectionner ce champ de votre ensemble de données.
Les concepts de dimensions et de mesures sont empruntés à l'intelligence d'affaires (IA). Dans un sens strict :
- Une dimension est une variable indépendante, tandis qu'une mesure est une variable dépendante.
- Ou, une dimension est une variable de caractéristique, tandis qu'une mesure est une variable cible.
RATH vous aidera automatiquement à attribuer les dimensions et les mesures.
Bonne pratique : pour les ensembles de données non explorés, vous pouvez utiliser RATH pour générer des résultats d'analyse rapides. Ensuite, vous pouvez ajuster les types de champ selon votre compréhension.
Vue méta
La vue méta est une alternative pour observer vos ensembles de données, mais en mettant davantage l'accent sur les métadonnées.
Vous pouvez facilement modifier les champs, changer les types analytiques et sémantiques, filtrer, explorer ou transformer les champs, etc.
Vue statistique
Sur la vue statistique, RATH affiche toutes les vues de distribution de vos données dans le volet gauche. Vous pouvez cliquer sur n'importe quel champ pour obtenir des informations détaillées sur ce champ, notamment les valeurs uniques, la valeur maximale et minimale, la valeur médiane, les quartiles, l'écart-type, etc.
Vous pouvez sélectionner une partie du champ. RATH générera automatiquement des statistiques sur les données pour la partie sélectionnée.
Déplacez le champ sélectionné en le faisant glisser. Les statistiques sur les données sélectionnées changent en conséquence.