Transforma tus datos
La transformación de datos es un proceso que te ayuda a preparar tus datos severos para su análisis y modelado. Consiste en cuatro pasos principales para garantizar que tus datos sean precisos y fiables.
-
Limpieza de datos: este paso implica corregir errores, inconsistencias y valores faltantes en tus datos.
-
Filtrado de datos: este paso te permite seleccionar solo los datos relevantes para tu análisis.
-
Transformación de datos: este paso cambia el formato de tus datos para que sea más fácil trabajar con ellos.
-
Muestreo de datos: este paso implica seleccionar una porción más pequeña de tus datos para ahorrar tiempo y recursos.
Siguiendo estos pasos, podrás trabajar con datos de alta calidad que te proporcionarán resultados precisos de tu análisis y modelado.
Manipulación de datos con RATH
Limpieza de datos
La limpieza de datos es el proceso de corregir o eliminar datos incorrectos, corrompidos, con formato incorrecto, duplicados o incompletos de un conjunto de datos. La limpieza adecuada de los datos puede mejorar la calidad del análisis.
Antes de usar RATH para la limpieza de datos, asegúrate de que tus conjuntos de datos tengan formatos de datos estandarizados, que incluyen:
- Datos de fecha y hora: deben estandarizarse como
AAAA-MM-DD
.- Datos numéricos: deben estar correctos. Por ejemplo, considera un conjunto de datos para registros de ventas en un supermercado. Los datos de ventas deben estandarizarse como
100
en lugar de$100
o100 dólares
.
Para usar RATH para la limpieza de datos, simplemente importa tus datos desde una fuente de datos. RATH puede limpiar automáticamente tus datos.
También puedes elegir una opción del menú desplegable Método de limpieza en la pestaña Fuente de datos.
Selecciona una de las opciones que coincidan con tus requisitos para continuar.
Filtrado de datos
También puedes filtrar tus datos con RATH. Ve a la vista Meta y haz clic en el botón "Filtrar" de un conjunto de datos específico.En campo.
Habilitar el filtro y seleccionar un rango específico o conjunto de valores. En el ejemplo anterior, estamos seleccionando los datos cuya temperatura está entre 20 y 30 grados.
Si solo desea eliminar las anomalías, seleccione el botón Selección rápida y utilice la función de filtrado rápido para obtener las partes principales de los datos. Puede configurar más detalles en la siguiente pantalla:
Transformación de datos
En la vista Tabla o Meta, seleccione la opción Transformar en un campo determinado. RATH puede generar sugerencias de manera automática para la transformación de datos.
Por ejemplo, si selecciona un objeto de fecha y hora, RATH le sugiere agrupar la fecha y hora por unidades de tiempo:
Para variables categóricas, RATH sugerirá usar el algoritmo de codificación One-hot.
Si RATH detecta anomalías potenciales en un campo determinado, sugerirá utilizar el algoritmo de bosques aislados.
Muestreo de datos
El muestreo de datos es el proceso de selección de una porción representativa de datos de un conjunto de datos más grande para inferir aspectos sobre una población completa. Permite una exploración y análisis eficiente y efectivo, reduciendo la cantidad de datos que se deben procesar mientras proporciona información precisa.
Para obtener más detalles sobre el muestreo de datos, consulte las secciones relacionadas en el capítulo Conectar sus datos.