Skip to content
RATH
Preparar datos
Extract Text Patterns

Extraer patrones de texto

En este tutorial, se le enseñará cómo usar RATH para descubrir y extraer patrones de texto de su fuente de datos.

La forma tradicional de operar con patrones de texto es:

  • Identificar y extraer manualmente estas características en función de la experiencia e intuición.
  • Diseñar un algoritmo o expresión regular adecuados para la operación, lo que puede ser consumidor de tiempo.

RATH ofrece una característica inteligente de descubrimiento y extracción de patrones de texto que puede identificar con precisión los patrones coincidentes de texto en función de su intención y extraerlos automáticamente.

Prerrequisitos

Las funciones de detección y extracción de patrones de texto están disponibles en la pestaña de Fuente de datos. Simplemente importe desde su fuente de datos preferida y utilice esta función.

Descubrir y extraer patrones de texto

Caso 1: Extracción básica de texto

En este caso, intentamos extraer un subconjunto (por ejemplo, 2011) del campo de fecha resaltando el texto. RATH resaltará todos los 2011 y sugerirá expresiones regulares relacionadas en el lado derecho de la pantalla. Extracción simple de texto

Caso 2: Extracción de texto basada en la intención

En este caso, intentamos extraer todas las palabras Universidad del campo de Nombre.

  1. Seleccione la palabra "Universidad".

  2. RATH inferirá que la última palabra del texto puede ser el resultado deseado y agregará los textos extraídos en una nueva columna con distribución y estadísticas.

  3. Para cambiar esto, seleccione otra Universidad. RATH actualizará automáticamente la extracción.Entienda su intención de que la palabra "University" sea exactamente igual. Extracción de patrón de texto - RATH puede entender la intención

Caso 3: Generalización de intención

RATH no solo puede entender su intención para la extracción de texto sino que también puede generalizar su intención.

  1. En el conjunto de datos "Titanic", que está compuesto por los nombres y otra información de los pasajeros del Titanic, seleccione el título y el apellido (Sr. Owen Harris) de un pasajero.

  2. Debido a que algunos apellidos van seguidos de información adicional entre paréntesis, como "Sra. John Bradley (Florence Briggs Thayer)", RATH no puede extraer todos los apellidos. Solo necesita seleccionar uno de estos apellidos no seleccionados, RATH generalizará su intención y extraerá todos los apellidos que coincidan.

  3. También puede extraer el título de la persona (por ejemplo, Sr., Srta., Sra.) y RATH comprenderá con precisión la intención, extraerá la información y generará un nuevo campo que se mostrará junto al campo original. Extracción de patrón de texto - Generalización de la intención

Mejores prácticas

  • La extracción y descubrimiento de patrones de texto puede ser una gran alternativa a SQL, ya que puede identificar y extraer patrones simples con expresiones pero no puede descubrir patrones de texto ocultos.