Perfil de datos
¿Qué es el perfilamiento de datos?
El perfilamiento de datos es el proceso de examinar y analizar datos para obtener una mejor comprensión de su estructura, contenido y calidad. Implica recopilar estadísticas y métricas sobre los atributos de los datos, incluido el tipo de datos, la longitud, el patrón y la integridad, para identificar posibles problemas e inconsistencias que puedan afectar la calidad de los datos.
El propósito del perfilamiento de datos es proporcionar una descripción general completa de los datos y apoyar las actividades de gobernanza de datos, limpieza de datos e integración de datos.
Perfilamiento de datos con RATH
Después de conectar RATH a su fuente de datos, puede acceder a una vista general de sus datos en la pestaña Fuente de datos. En esta página, puede acceder a la distribución y las estadísticas básicas de su fuente de datos, con tres opciones diferentes para revisar su fuente de datos.
- Vista de tabla: donde puede echar un vistazo a sus datos en forma de tabla.
- Vista de metadatos: donde puede revisar los metadatos. Mejor práctica: use la vista de metadatos para configurar rápidamente los tipos de campos de datos.
- Vista estadística: donde puede verificar la información estadística de su fuente de datos. Mejor práctica: use esta vista para análisis estadísticos y de distribución de datos.
Vista de tabla
En la vista de tabla, puede echar un vistazo rápido a los campos de datos disponibles, lo que otorga una idea general de qué se trata este conjunto de datos.
Mueva el cursor del mouse sobre el campo de datos específico que desea editar. En este ejemplo, estamos tratando de modificar el campo fecha
.
-
Haga clic en el botón "lápiz" en el lado derecho de
fecha
para cambiar el nombre de este campo. -
Haga clic en el botón "bombilla" en el lado derecho de
fecha
para explorar este campo con la función de exploración semiautomática. -
Haga clic en el botón de transformación para transformar este campo. En este caso, RATH detecta automáticamente el campo
fecha
como un campo de fecha y hora y sugiere agrupar los datos por este campo.El campo por unidades de tiempo. -
Cambia la dimensión de este campo.
- Para los tipos de datos, puedes elegir entre nominal, ordinal, cuantitativo y temporal.
- Consulta esta documentación (opens in a new tab) para obtener más información sobre estos 4 tipos de datos diferentes.
-
Desmarca la opción "usar campo" para deseleccionar este campo de tu conjunto de datos.
Los conceptos de dimensiones y medidas se toman de la inteligencia empresarial (BI). En un sentido estricto:
- Una dimensión es una variable independiente, mientras que una medida es una variable dependiente.
- O, una dimensión es una variable de característica, mientras que una medida es la variable objetivo.
RATH automáticamente te ayuda a asignar las dimensiones y medidas.
Mejores prácticas: Para conjuntos de datos no explorados, puedes utilizar RATH para generar resultados de análisis rápidos. Posteriormente, puedes ajustar los tipos de campos según tu comprensión.
Vista de metadatos
La vista de metadatos es una forma alternativa de ver tus conjuntos de datos, pero se enfoca más en la información de los metadatos.
Puedes modificar fácilmente los campos, cambiar los tipos analíticos y semánticos, filtrar, explorar o transformar los campos, etc.
Vista de estadísticas
En la Vista de estadísticas, RATH muestra todas las vistas de distribución de tus datos en el panel izquierdo. Puedes hacer clic en cualquier campo para obtener información detallada sobre este campo, lo que incluye valores únicos, valor máximo y mínimo, valor medio, cuantil, desviación estándar, etc.
Puedes seleccionar una parte del campo. RATH automáticamente genera estadísticas de los datos para la selección.
Mueve el campo seleccionado arrastrándolo y soltándolo. Las estadísticas de datos seleccionados cambian en consecuencia.