Skip to content
RATH
Daten vorbereiten
Extrahieren von Textmustern

Muster aus Text extrahieren

In diesem Tutorial lernen Sie, wie Sie RATH verwenden, um Textmuster aus Ihrer Datenquelle zu entdecken und zu extrahieren.

Die traditionelle Methode zur Bearbeitung von Textmustern besteht darin:

  • Manuell die Features aufgrund von Erfahrungswerten und Einblicken identifizieren und extrahieren.
  • Einen geeigneten Algorithmus oder einen regulären Ausdruck für die Operation entwerfen, was zeitaufwändig sein kann.

RATH bietet eine intelligente Funktion zur Entdeckung und Extraktion von Textmustern, mit der passende Textmuster basierend auf Ihren Absichten genau identifiziert und automatisch extrahiert werden können.

Voraussetzungen

Die Funktionen zur Entdeckung und Extraktion von Textmustern sind im Reiter "Datenquelle" verfügbar. Importieren Sie einfach Ihre bevorzugte Datenquelle und nutzen Sie diese Funktion.

Muster aus Text entdecken und extrahieren

Fall 1: Grundlegende Textextraktion

In diesem Fall versuchen wir, eine Teilmenge (z. B. 2011) aus dem Feld "Datum" zu extrahieren, indem wir den Text hervorheben. RATH hebt alle Vorkommnisse von 2011 hervor und schlägt verwandte reguläre Ausdrücke auf der rechten Seite des Bildschirms vor. Einfache Textextraktion

Fall 2: Texte basierend auf Absicht extrahieren

In diesem Fall versuchen wir, alle Wörter "University" aus dem Feld "Name" zu extrahieren.

  1. Wählen Sie das Wort "University" aus.

  2. RATH schließt daraus, dass das letzte Wort des Textes das gewünschte Ergebnis sein könnte, und aggregiert die extrahierten Texte in eine neue Spalte mit Verteilung und Statistiken.

  3. Um dies zu ändern, wählen Sie eine andere University aus. RATH versteht dann Ihre Absicht, das Wort "University" genau abzugleichen. Textmusterextraktion - RATH kann die Absicht verstehen

Fall 3: Absicht verallgemeinern

RATH kann nicht nur Ihre Absicht für die Textextraktion verstehen, sondern auch verallgemeinern.

  1. Wählen Sie im Datensatz "Titanic", der aus den Namen und anderen Informationen der Titanic-Passagiere besteht, den Titel und den Nachnamen (Mr. Owen Harris) eines Passagiers aus.

  2. Da einige Nachnamen durch zusätzliche Informationen in Klammern, wie z. B. "Mrs. John Bradley (Florence Briggs Thayer)", ergänzt werden, kann RATH nicht alle Nachnamen extrahieren. Sie müssen nur einen dieser nicht ausgewählten Nachnamen auswählen, dann wird RATH Ihre Absicht verallgemeinern und alle passenden Nachnamen extrahieren.

  3. Sie können auch den Titel der Person extrahieren (z. B. Mr., Miss., Mrs.) und RATH wird die Absicht präzise verstehen, die Informationen extrahieren und ein neues Feld neben dem ursprünglichen Feld anzeigen. Textmusterextraktion - Verallgemeinerung der Absicht

Best Practices

  • Die Entdeckung und Extraktion von Textmustern kann eine gute Alternative zu SQL sein, da sie einfache Muster mit Ausdrücken identifizieren und extrahieren kann, versteckte Textmuster jedoch nicht erkennen kann.