Extração de Padrões de Texto
Neste tutorial, você aprenderá como usar o RATH para descobrir e extrair padrões de texto de suas fontes de dados.
A maneira tradicional de realizar operações com padrões de texto são:
- Identificar e extrair manualmente esses recursos com base em experiência e discernimento.
- Projetar um algoritmo adequado ou expressão regular para a operação, o que pode consumir muito tempo.
O RATH oferece um recurso inteligente de descoberta e extração de padrões de texto que pode identificar com precisão padrões de texto correspondentes com base na sua intenção e extrai-los automaticamente.
Pré-requisitos
As funcionalidades de descoberta e extração de padrões de texto estão disponíveis na guia Fonte de Dados. Basta importar a fonte de dados preferida e utilizar este recurso.
Descobrindo e extraindo padrões de texto
Caso 1: Extração básica de texto
Neste caso, tentamos extrair um subconjunto (por exemplo, 2011
) do campo data
destacando o texto. O RATH destacará todas as ocorrências de 2011 e sugerirá expressões regulares relacionadas no lado direito da tela.
Caso 2: Extração de texto com base na intenção
Neste caso, tentamos extrair todas as palavras Universidade
do campo Nome
.
-
Selecione a palavra "Universidade"
-
O RATH inferirá que a última palavra do texto pode ser o resultado desejado e agregará os textos extraídos em uma nova coluna com distribuição e estatísticas.
-
Para alterar isso, selecione outra
Universidade
. O RATH vai uEntenda sua intenção de corresponder exatamente à palavra "Universidade".
Caso 3: Generalizar a intenção
O RATH não somente pode entender sua intenção para extração de texto, mas também generalizar sua intenção.
-
No conjunto de dados "Titanic", que é composto pelos nomes e outras informações dos passageiros do Titanic, selecione o título e sobrenome (Sr. Owen Harris) de um passageiro.
-
Devido a alguns sobrenomes serem seguidos por informações adicionais entre parênteses, como "Sra. John Bradley (Florence Briggs Thayer)", o RATH não pode extrair todos os sobrenomes. Você precisa selecionar apenas um desses sobrenomes não selecionados, o RATH generalizará sua intenção e extrairá todos os sobrenomes correspondentes.
-
Você também pode extrair o título da pessoa (por exemplo: Sr., Srta., Sra.) e o RATH entenderá a intenção, extrairá as informações e gerará um novo campo exibido ao lado do campo original.
Melhores práticas
- A descoberta e extração de padrões de texto podem ser uma ótima alternativa ao SQL, que pode identificar e extrair padrões simples com expressões, mas não consegue descobrir padrões de texto ocultos.