Skip to content
RATH
Préparer les données
Extraction des motifs de texte

Découverte de motifs de texte

Dans ce tutoriel, vous êtes instruit sur la manière d'utiliser RATH pour découvrir et extraire des motifs de texte à partir de votre source de données.

La méthode traditionnelle d'opérations sur les motifs de texte consiste à :

  • Identifier et extraire manuellement ces caractéristiques en se basant sur l'expérience et l'intuition.
  • Concevoir un algorithme adapté ou une expression régulière pour l'opération, ce qui peut être chronophage.

RATH offre une fonctionnalité intelligente de découverte et d'extraction de motifs de texte qui peut identifier avec précision les motifs de texte correspondants en fonction de votre intention et les extraire automatiquement.

Prérequis

Les fonctionnalités de découverte et d'extraction de motifs de texte sont disponibles dans l'onglet "Data Source". Il vous suffit d'importer votre source de données préférée et d'utiliser cette fonctionnalité.

Découvrir et extraire des motifs de texte

Cas 1 : Extraction de texte de base

Dans ce cas, nous essayons d'extraire un sous-ensemble (par exemple, 2011) du champ date en surlignant le texte. RATH surlignera toutes les occurrences de 2011 et proposera des expressions régulières connexes sur le côté droit de l'écran. Extraction de texte simple

Cas 2 : Extraire du texte en fonction de l'intention

Dans ce cas, nous essayons d'extraire tous les mots University du champ Name.

  1. Sélectionnez le mot "University".

  2. RATH déduira que le dernier mot du texte peut être le résultat souhaité, et regroupera les textes extraits dans une nouvelle colonne avec une distribution et des statistiques.

  3. Pour changer cela, sélectionnez une autre University. RATH comprendra votre intention de faire correspondre exactement le mot "University". Extraction de motifs de texte - RATH peut comprendre l'intention

Cas 3 : Généraliser l'intention

RATH peut non seulement comprendre votre intention d'extraction de texte, mais aussi la généraliser.

  1. Dans l'ensemble de données "Titanic", qui est composé des noms et d'autres informations des passagers du Titanic, sélectionnez le titre et le nom de famille (M. Owen Harris) d'un passager.

  2. Étant donné que certains noms de famille sont suivis d'informations supplémentaires entre parenthèses, comme "Mme. John Bradley (Florence Briggs Thayer)", RATH ne peut pas extraire tous les noms de famille. Vous n'avez qu'à sélectionner l'un de ces noms de famille non sélectionnés, RATH généralisera votre intention et extraira tous les noms de famille correspondants.

  3. Vous pouvez également extraire le titre de la personne (par exemple, M., Mlle, Mme) et RATH comprendra précisément l'intention, extraira les informations et générera un nouveau champ affiché à côté du champ d'origine. Extraction de motifs de texte - Généralisation de l'intention

Bonnes pratiques

  • La découverte et l'extraction de motifs de texte peuvent être une excellente alternative à SQL, qui peut identifier et extraire des motifs simples avec des expressions mais ne peut pas découvrir les motifs de texte cachés.