Skip to content
RATH
Preparar Dados
Extract Text Patterns

Extração de Padrões de Texto

Neste tutorial, você aprenderá como usar o RATH para descobrir e extrair padrões de texto de suas fontes de dados.

A maneira tradicional de realizar operações com padrões de texto são:

  • Identificar e extrair manualmente esses recursos com base em experiência e discernimento.
  • Projetar um algoritmo adequado ou expressão regular para a operação, o que pode consumir muito tempo.

O RATH oferece um recurso inteligente de descoberta e extração de padrões de texto que pode identificar com precisão padrões de texto correspondentes com base na sua intenção e extrai-los automaticamente.

Pré-requisitos

As funcionalidades de descoberta e extração de padrões de texto estão disponíveis na guia Fonte de Dados. Basta importar a fonte de dados preferida e utilizar este recurso.

Descobrindo e extraindo padrões de texto

Caso 1: Extração básica de texto

Neste caso, tentamos extrair um subconjunto (por exemplo, 2011) do campo data destacando o texto. O RATH destacará todas as ocorrências de 2011 e sugerirá expressões regulares relacionadas no lado direito da tela. Extração básica de texto

Caso 2: Extração de texto com base na intenção

Neste caso, tentamos extrair todas as palavras Universidade do campo Nome.

  1. Selecione a palavra "Universidade"

  2. O RATH inferirá que a última palavra do texto pode ser o resultado desejado e agregará os textos extraídos em uma nova coluna com distribuição e estatísticas.

  3. Para alterar isso, selecione outra Universidade. O RATH vai uEntenda sua intenção de corresponder exatamente à palavra "Universidade". Extração de padrão de texto - O RATH pode entender a intenção

Caso 3: Generalizar a intenção

O RATH não somente pode entender sua intenção para extração de texto, mas também generalizar sua intenção.

  1. No conjunto de dados "Titanic", que é composto pelos nomes e outras informações dos passageiros do Titanic, selecione o título e sobrenome (Sr. Owen Harris) de um passageiro.

  2. Devido a alguns sobrenomes serem seguidos por informações adicionais entre parênteses, como "Sra. John Bradley (Florence Briggs Thayer)", o RATH não pode extrair todos os sobrenomes. Você precisa selecionar apenas um desses sobrenomes não selecionados, o RATH generalizará sua intenção e extrairá todos os sobrenomes correspondentes.

  3. Você também pode extrair o título da pessoa (por exemplo: Sr., Srta., Sra.) e o RATH entenderá a intenção, extrairá as informações e gerará um novo campo exibido ao lado do campo original. Extração de padrão de texto - Generalização da intenção

Melhores práticas

  • A descoberta e extração de padrões de texto podem ser uma ótima alternativa ao SQL, que pode identificar e extrair padrões simples com expressões, mas não consegue descobrir padrões de texto ocultos.