Was ist die Verarbeitung natürlicher Sprache (NLP)?

Die Verarbeitung natürlicher Sprache (NLP) ermöglicht es Computern, menschliche Sprache zu interpretieren.

Lernziele

Nach Lektüre dieses Artikels können Sie Folgendes:

  • Verarbeitung natürlicher Sprache (NLP) definieren
  • Verstehen, wie NLP funktioniert
  • NLP mit anderen Arten von künstlicher Intelligenz (KI) vergleichen

Link zum Artikel kopieren

Was ist NLP (Verarbeitung natürlicher Sprache)?

Verarbeitung natürlicher Sprache (natural language processing oder kurz NLP) ist eine Methode, die es Computerprogrammen ermöglicht, menschliche Sprache zu interpretieren. NLP ist eine Form der künstlichen Intelligenz (KI). Moderne NLP-Modelle werden meist mit maschinellem Lernen erstellt und stützen sich auch auf Sprachwissenschaft.

Alle Computer können Befehle und Anweisungen in computerfreundlichen Sprachen interpretieren. Zum Beispiel kann ein Computer (insbesondere eine Browser-App) JavaScript-Code wie diesen verstehen und interpretieren:


window.addEventListener("scroll", popup);

function popup() {
window.alert("Hallo, Welt!");
}

Es kann jedoch keine Texte in natürlicher Sprache verstehen und interpretieren:


Wenn der Nutzer scrollt, zeige die Meldung „Hallo, Welt!“

Ein Computerprogramm, das in der Lage ist natürliche Sprache zu verarbeiten, kann den obigen Satz verstehen, auch wenn es den Befehl nicht ausführen kann.

Während Programmiersprachen der beste Weg sind, um Computern Befehle zu erteilen, können Computerprogramme dank der Verarbeitung natürlicher Sprache eine Vielzahl von Aufgaben mit gesprochener und geschriebener menschlicher Sprache ausführen. Sie hilft beispielsweise bei der Verarbeitung großer Datensammlungen von Sprachaufnahmen und geschriebenen Texten, bei der Automatisierung von Interaktionen mit menschlichen Nutzern oder bei der Interpretation von Nutzeranfragen.

Weitere Einsatzmöglichkeiten für NLP sind:

  • Stimmungsanalyse: NLP kann helfen, große Mengen von Nutzerkommentaren, Beiträgen in sozialen Medien oder Kundendienstanfragen zu interpretieren
  • Virtuelle Assistenten: NLP ist entscheidend für das Verständnis der Anfragen von Nutzern von Assistenten wie Siri, Alexa oder Cortana
  • Suchmaschinen: NLP hilft Suchmaschinen, die Suchabsicht hinter einfachen Ein-Wort-Suchanfragen und Suchanfragen, die als Sätze oder Fragen eingegeben werden, besser zu verstehen und Rechtschreibfehler oder andere menschliche Fehler in Suchanfragen zu interpretieren
  • Übersetzung: NLP kann helfen, Inhalt zu verstehen und von einer Sprache in eine andere zu übersetzen
  • Inhaltsmoderation: NLP kann helfen, potenziell schädlichen oder anstößigen Inhalt zu kennzeichnen, indem die Bedeutung von nutzergeneriertem Text interpretiert wird

Wie funktioniert die Verarbeitung natürlicher Sprache (NLP)?

NLP verwendet maschinelles Lernen, um von Menschen erstellten Inhalt statistisch zu analysieren und zu lernen, wie er zu interpretieren ist. Während des Trainingsprozesses werden NLP-Modelle mit Beispielen von Wörtern und Sätzen im Kontext sowie mit deren Interpretationen gefüttert. Beispielsweise kann ein NLP-Modell nicht verstehen, dass das Wort „orange“ die Farbe und nicht die Frucht bezeichnet. Nachdem ihm aber Tausende von Beispielen gezeigt wurden – Sätze wie „Ich habe eine Orange gegessen“ oder „Dieses Auto gibt es in orange“ – kann das Modell beginnen, das Wort zu verstehen und den Unterschied zwischen den Bedeutungen richtig zu interpretieren.

Angesichts der Komplexität und Widersprüchlichkeit der menschlichen Sprache basiert NLP häufig auf Deep Learning, einer leistungsfähigeren Form des maschinellen Lernens. Deep-Learning-Modelle können nicht beschriftete Rohdaten verarbeiten, benötigen für ihr Training aber große Datenmengen. Deep Learning erfordert außerdem eine hohe Rechenleistung.

Was ist NLP Preprocessing?

NLP Preprocessing ist die Vorbereitung von Rohtext für die Analyse durch ein Programm oder ein maschinelles Lernmodell. NLP Preprocessing (oder NLP-Vorverarbeitung) ist notwendig, um Text in ein Format zu bringen, das Deep-Learning-Modelle leichter analysieren können.

Es gibt mehrere Methoden für das NLP Preprocessing, die in Kombination verwendet werden. Die wichtigsten sind:

  • Umwandlung in Kleinbuchstaben: Für die Bedeutung eines Wortes, gibt es kaum einen Unterschied zwischen Groß- und Kleinschreibung. Es ist daher effizienter, alle Wörter in Kleinbuchstaben umzuwandeln, da viele Computerprogramme zwischen Groß- und Kleinschreibung unterscheiden und Wörter in Großbuchstaben unnötigerweise unterschiedlich behandeln könnten.
  • Stammformreduktion: Hierbei werden Wörter auf ihren Wortstamm reduziert. Im Englischen werden dafür z. B. Endungen wie „-ing“ oder „-tion“ entfernt („transporting“ und „transportation“ werden beide zu „transport“).
  • Lemmatisierung: Diese NLP-Technik reduziert Wörter auf die primäre Form, die in einem Wörterbuch zu finden ist. Substantive im Plural oder im Genetiv werden zum Singular: „neighbor's“, „neighbors“ und „neighbor“ werden zu „neighbor“, um nur ein Beispiel zu nennen. Verben werden zu ihrer unkonjugierten Form: „went“ und „goes“ werden „go“.
  • Tokenisierung: Dabei wird der Text in kleinere Teile zerlegt, die auf die Bedeutung hinweisen. Die Stücke bestehen in der Regel aus Sätzen, einzelnen Wörtern oder Teilwörtern (die Vorsilbe „un-“ ist ein Beispiel für ein Teilwort).
  • Entfernen von Stoppwörtern: Viele Wörter sind wichtig für die Grammatik oder für die Verständlichkeit, wenn Menschen mit Menschen sprechen, aber sie fügen einem Satz keine große Bedeutung hinzu und sind für die Verarbeitung von Sprache in einem Computerprogramm nicht notwendig. Solche Wörter werden im Zusammenhang mit NLP als Stoppwörter (stop words) bezeichnet und aus dem Text entfernt. Ein Beispiel: In dem englischen Satz „I went to college for four years“ sind die Wörter „to“ und „for“ zwar wichtig, damit der Satz für menschliche Ohren verständlich klingt, aber nicht notwendig, um die Bedeutung zu vermitteln. Die Version ohne Stoppwörter könnte lauten: „I went college four years.“

Was ist der Unterschied zwischen NLP und großen Sprachmodellen (LLM)?

Ein großes Sprachmodell (Large Language Model oder kurz LLM ) ist eine Art maschinelles Lernmodell, das in der Lage ist, von Menschen geschriebenen Text zu verstehen und natürlich klingende Ausgaben zu erzeugen. LLM, wie das weit verbreitete ChatGPT, werden mit sehr großen Textdatensätzen trainiert.

Es gibt einige Überschneidungen zwischen den Begriffen NLP und LLM: Beide verwenden maschinelles Lernen, große Datensätze und Training, um menschliche Sprache zu interpretieren. Einige Quellen definieren LLM sogar als eine Form von NLP.

LLM unterscheiden sich jedoch in einigen wesentlichen Punkten von NLP-Modellen:

  • NLP wird in der Regel für eine bestimmte Aufgabe trainiert, während LLM ein breites Spektrum an Einsatzmöglichkeiten haben
  • NLP liefert Einsichten und Interpretationen, während LLM Texte produzieren, die statistisch relevant sind, aber nicht unbedingt ein Verständnis der zugrunde liegenden Bedeutung vermitteln (obwohl viele fortgeschrittene LLM leicht den Eindruck erwecken können)
  • Aufgrund ihres breiten Anwendungsspektrums benötigen LLM viel mehr Daten und Training als NLP-Modelle

Beispielsweise wäre ein NLP-Modell die bessere Wahl für eine Stimmungsanalyse, während ein LLM für die Einbindung in einen Chatbot geeignet wäre, der mit Kunden interagiert. Ein NLP-Modell könnte einer Suchmaschine helfen, die Anfrage eines Nutzers zu interpretieren und relevante Suchergebnisse zu generieren, während ein LLM seine eigene Antwort auf die Anfrage auf der Grundlage einer statistischen Analyse bereits vorhandenen relevanten Inhalts verfassen könnte.

Der Unterschied zwischen NLP, LLM und generativer KI

NLP unterscheidet sich auch von generativer KI, obwohl es mit ihr verwandt ist. Generative KI ist ein Deep-Learning-Modell, das Text, Audio, Video, Bilder oder Code erzeugen kann. Im Gegensatz dazu sind NLP-Modelle oft gar nicht auf die Textgenerierung ausgelegt. LLM sind auch eine Art generativer KI, da sie Text als Antwort auf Anfragen erzeugen können.

Wie ermöglicht Cloudflare die Entwicklung von NLP-Modellen?

Cloudflare ermöglicht es Entwicklern, erweitertes Deep Learning auf GPUs weltweit auszuführen. So erhalten sie Zugang zu der Rechenleistung, die sie für das Training von KI-Modellen benötigen – und das bei minimaler Latenz. Darüber hinaus bietet Cloudflare R2 eine kostengünstige Speichermethode für die riesigen Datenmengen, auf denen Deep Learning-basiertes NLP trainiert werden muss. Erfahren Sie mehr über Cloudflare für KI.