Découverte de motifs de texte
Dans ce tutoriel, vous êtes instruit sur la manière d'utiliser RATH pour découvrir et extraire des motifs de texte à partir de votre source de données.
La méthode traditionnelle d'opérations sur les motifs de texte consiste à :
- Identifier et extraire manuellement ces caractéristiques en se basant sur l'expérience et l'intuition.
- Concevoir un algorithme adapté ou une expression régulière pour l'opération, ce qui peut être chronophage.
RATH offre une fonctionnalité intelligente de découverte et d'extraction de motifs de texte qui peut identifier avec précision les motifs de texte correspondants en fonction de votre intention et les extraire automatiquement.
Prérequis
Les fonctionnalités de découverte et d'extraction de motifs de texte sont disponibles dans l'onglet "Data Source". Il vous suffit d'importer votre source de données préférée et d'utiliser cette fonctionnalité.
Découvrir et extraire des motifs de texte
Cas 1 : Extraction de texte de base
Dans ce cas, nous essayons d'extraire un sous-ensemble (par exemple, 2011
) du champ date
en surlignant le texte. RATH surlignera toutes les occurrences de 2011 et proposera des expressions régulières connexes sur le côté droit de l'écran.
Cas 2 : Extraire du texte en fonction de l'intention
Dans ce cas, nous essayons d'extraire tous les mots University
du champ Name
.
-
Sélectionnez le mot "University".
-
RATH déduira que le dernier mot du texte peut être le résultat souhaité, et regroupera les textes extraits dans une nouvelle colonne avec une distribution et des statistiques.
-
Pour changer cela, sélectionnez une autre
University
. RATH comprendra votre intention de faire correspondre exactement le mot "University".
Cas 3 : Généraliser l'intention
RATH peut non seulement comprendre votre intention d'extraction de texte, mais aussi la généraliser.
-
Dans l'ensemble de données "Titanic", qui est composé des noms et d'autres informations des passagers du Titanic, sélectionnez le titre et le nom de famille (M. Owen Harris) d'un passager.
-
Étant donné que certains noms de famille sont suivis d'informations supplémentaires entre parenthèses, comme "Mme. John Bradley (Florence Briggs Thayer)", RATH ne peut pas extraire tous les noms de famille. Vous n'avez qu'à sélectionner l'un de ces noms de famille non sélectionnés, RATH généralisera votre intention et extraira tous les noms de famille correspondants.
-
Vous pouvez également extraire le titre de la personne (par exemple, M., Mlle, Mme) et RATH comprendra précisément l'intention, extraira les informations et générera un nouveau champ affiché à côté du champ d'origine.
Bonnes pratiques
- La découverte et l'extraction de motifs de texte peuvent être une excellente alternative à SQL, qui peut identifier et extraire des motifs simples avec des expressions mais ne peut pas découvrir les motifs de texte cachés.