Skip to content
RATH
Connecter les données
Best Practices

Bonnes pratiques pour la connexion de données

Échantillonnage des données

L'échantillonnage des données est une méthode permettant de sélectionner un sous-ensemble représentatif de données à partir d'un ensemble de données plus volumineux. L'objectif de ce processus est de réduire la quantité de données sans sacrifier la précision des résultats. Dans RATH, il est recommandé d'utiliser l'échantillonnage des données pour les ensembles de données de plus de 100 Mo.

Pour de meilleurs résultats, réduisez le nombre de lignes de l'ensemble de données à moins de 100 000. Les ensembles de données avec 100 000 à 1 million de lignes peuvent connaître un certain retard, et pour les ensembles de données dépassant 1 million de lignes, l'échantillonnage des données est nécessaire.

Vous pouvez sélectionner la taille de l'échantillon de la manière suivante : Cliquez sur le bouton de taille d'échantillon fixe et choisissez la taille d'échantillon souhaitée. Échantillonnage des données

Alternatives à l'échantillonnage des données

Vous pouvez utiliser ClickHouse, une base de données MPP (traitement massivement parallèle) qui est optimisée pour le traitement des grands ensembles de données et peut fournir des performances améliorées par rapport à l'échantillonnage des données.

Pour d'autres types de support de bases de données MPP, contactez l'équipe RATH pour obtenir de l'aide.