Skip to content

NLTK-Tokenisierung in Python: Hier schnell starten

Updated on

In unserer digitalen Welt, die unaufhaltsam wächst, ist die Fähigkeit zur effektiven Analyse von Textdaten zu einer unschätzbaren Fähigkeit geworden. Eine entscheidende Technik, die bei der Verarbeitung natürlicher Sprache (NLP) eingesetzt wird, ist die Tokenisierung. Dieser Prozess beinhaltet das Aufteilen von Text in kleinere Teile, die als Tokens bezeichnet werden. In diesem Artikel werden wir uns NLTK, eine speziell für NLP entwickelte Python-Bibliothek, und ihre leistungsstarken Tokenisierungsfunktionen genauer ansehen.

Möchten Sie schnell Visualisierungen von Pandas Dataframes in Python ohne Code erstellen?

PyGWalker ist eine Python-Bibliothek für Exploratory Data Analysis mit Visualisierung. PyGWalker (opens in a new tab) kann Ihren Workflow in der Datenanalyse und Datenvisualisierung in Jupyter Notebooks vereinfachen, indem Ihr Pandas DataFrame (und Polars DataFrame) in eine Tabelle mit einer Benutzeroberfläche im Stil von Tableau für visuelle Exploration verwandelt wird.

PyGWalker für Datenvisualisierungen (opens in a new tab)

Was bedeutet "Tokenisierung"?

Im Zusammenhang mit NLP bedeutet "tokenisieren", eine Zeichenkette von Text in einzelne Bestandteile aufzuteilen. Diese Bestandteile, oder Tokens, können Wörter, Phrasen oder Sätze sein, abhängig von der verwendeten Methode. Die Tokenisierung hilft dabei, komplexen Text in ein Format umzuwandeln, das für Maschinen einfacher zu analysieren und zu verstehen ist.

NLTK - Der Python-orientierte Weg der Textverarbeitung

Das Natural Language Toolkit, kurz NLTK, ist eine robuste Python-Bibliothek, die für NLP verwendet wird. Die Bibliothek bietet Werkzeuge für Aufgaben, die von grundlegender Zeichenkettenmanipulation, wie wir sie heute behandeln - Tokenisierung, bis hin zu fortgeschrittenen Aufgaben wie Sentimentanalyse, Entitätserkennung und maschineller Übersetzung reichen.

Der Tokenisierungsprozess mit NLTK

Die Tokenisierung mit NLTK kann grob in zwei Arten unterteilt werden:

  1. Tokenisierung von Wörtern
  2. Tokenisierung von Sätzen

Tokenisierung von Wörtern mit nltk.word_tokenize

Die Tokenisierung von Wörtern ist der Prozess des Aufteilens einer großen Textprobe in Wörter. Mit der Funktion word_tokenize von NLTK kann man eine Zeichenkette in Python leicht tokenisieren. Schauen wir uns ein Beispiel an:

from nltk.tokenize import word_tokenize
 
text = "NLTK ist eine führende Plattform zum Erstellen von Python-Programmen."
tokens = word_tokenize(text)
print(tokens)

In obigem Beispiel zerlegt die Funktion nltk.word_tokenize die Zeichenkette in einzelne Wörter.

Tokenisierung von Sätzen mit nltk.sent_tokenize

Auf der anderen Seite ist die Tokenisierung von Sätzen, auch Satzsegmentierung genannt, der Prozess des Aufteilens von Text in Sätze. Dies ist in der Regel komplexer als die Tokenisierung von Wörtern, da ein Satz auf verschiedene Arten enden kann (z.B. durch Punkte, Ausrufezeichen, Fragezeichen). Schauen wir uns ein Code-Beispiel dazu an:

from nltk.tokenize import sent_tokenize
 
text = "Hallo Welt. Schön, dich zu sehen. Danke, dass du dieses Buch gekauft hast."
sentences = sent_tokenize(text)
print(sentences)

In diesem Beispiel unterteilt nltk.sent_tokenize die Textzeichenkette in einzelne Sätze.

Vorteile der NLTK-Tokenisierung

Die Stärke der NLTK-Tokenisierung liegt in ihrer Vielseitigkeit und Einfachheit. Egal, ob Sie nach der Tokenisierung von Zeichenketten in Python suchen oder einen nltk sentence tokenizer benötigen, NLTK hat Sie abgedeckt. Sie müssen lediglich zwischen nltk.word_tokenize für die Analyse auf Wortebene oder nltk.sent_tokenize für die Analyse auf Satzebene wählen. Mit diesen Werkzeugen ist die Tokenisierung ein zugänglicher Prozess für jeden, unabhängig von seinen Programmierkenntnissen.

Zusammenfassung

In diesem Artikel haben wir uns mit der Bedeutung der Tokenisierung auseinandergesetzt und den Tokenisierungsprozess der NLTK-Bibliothek in Python untersucht. Wir haben gezeigt, wie man eine Zeichenkette und einen Satz mit NLTK tokenisiert, nämlich mit den Methoden nltk.word_tokenize und nltk.sent_tokenize.

Denken Sie daran, die Kunst der Tokenisierung ist die Grundlage jedes NLP-Projekts. Egal, ob Sie einen ausgeklügelten KI-Chatbot entwerfen oder den sentimentalen Gehalt von Social-Media-Beiträgen verstehen wollen, die Tokenisierung von NLTK ist ein unverzichtbares Werkzeug für Ihren Data-Science-Werkzeugkasten.

Hören Sie hier nicht auf, sondern gehen Sie weiter auf Entdeckungsreise und viel Spaß beim Programmieren!

Weiterführende Informationen: