Extraer patrones de texto
En este tutorial, se le enseñará cómo usar RATH para descubrir y extraer patrones de texto de su fuente de datos.
La forma tradicional de operar con patrones de texto es:
- Identificar y extraer manualmente estas características en función de la experiencia e intuición.
- Diseñar un algoritmo o expresión regular adecuados para la operación, lo que puede ser consumidor de tiempo.
RATH ofrece una característica inteligente de descubrimiento y extracción de patrones de texto que puede identificar con precisión los patrones coincidentes de texto en función de su intención y extraerlos automáticamente.
Prerrequisitos
Las funciones de detección y extracción de patrones de texto están disponibles en la pestaña de Fuente de datos. Simplemente importe desde su fuente de datos preferida y utilice esta función.
Descubrir y extraer patrones de texto
Caso 1: Extracción básica de texto
En este caso, intentamos extraer un subconjunto (por ejemplo, 2011) del campo de fecha
resaltando el texto. RATH resaltará todos los 2011 y sugerirá expresiones regulares relacionadas en el lado derecho de la pantalla.
Caso 2: Extracción de texto basada en la intención
En este caso, intentamos extraer todas las palabras Universidad
del campo de Nombre
.
-
Seleccione la palabra "Universidad".
-
RATH inferirá que la última palabra del texto puede ser el resultado deseado y agregará los textos extraídos en una nueva columna con distribución y estadísticas.
-
Para cambiar esto, seleccione otra
Universidad
. RATH actualizará automáticamente la extracción.Entienda su intención de que la palabra "University" sea exactamente igual.
Caso 3: Generalización de intención
RATH no solo puede entender su intención para la extracción de texto sino que también puede generalizar su intención.
-
En el conjunto de datos "Titanic", que está compuesto por los nombres y otra información de los pasajeros del Titanic, seleccione el título y el apellido (Sr. Owen Harris) de un pasajero.
-
Debido a que algunos apellidos van seguidos de información adicional entre paréntesis, como "Sra. John Bradley (Florence Briggs Thayer)", RATH no puede extraer todos los apellidos. Solo necesita seleccionar uno de estos apellidos no seleccionados, RATH generalizará su intención y extraerá todos los apellidos que coincidan.
-
También puede extraer el título de la persona (por ejemplo, Sr., Srta., Sra.) y RATH comprenderá con precisión la intención, extraerá la información y generará un nuevo campo que se mostrará junto al campo original.
Mejores prácticas
- La extracción y descubrimiento de patrones de texto puede ser una gran alternativa a SQL, ya que puede identificar y extraer patrones simples con expresiones pero no puede descubrir patrones de texto ocultos.