Was ist ein großes Sprachmodell (LLM)?

Große Sprachmodelle (LLMs) sind Machine-Learning-Modelle, die Texte in menschlicher Sprache verstehen und erzeugen können. Sie funktionieren durch die Analyse großer Sprachdatensätze.

Lernziele

Nach Lektüre dieses Artikels können Sie Folgendes:

  • Große Sprachmodelle (LLM) definieren
  • Anwendungsfälle für LLMs verstehen
  • Erklären, wie LLMs funktionieren

Ähnliche Inhalte


Möchten Sie noch mehr erfahren?

Abonnieren Sie theNET, Cloudflares monatliche Zusammenfassung der beliebtesten Einblicke in das Internet!

Lesen Sie die Cloudflare Datenschutzrichtlinie, um zu erfahren, wie wir Ihre persönlichen Daten sammeln und verarbeiten.

Link zum Artikel kopieren

Was ist ein großes Sprachmodell (LLM)?

Ein großes Sprachmodell (Large Language Model, LLM) ist eine Art von KI-Programm, das neben anderen Aufgaben auch Text erkennen und generieren kann. LLMs werden auf riesigen Datenmengen trainiert – daher der Name „large“. LLMs basieren auf maschinellem Lernen, insbesondere auf einer Art neuronalem Netzwerk, dem so genannten Transformer-Modell.

Einfacher ausgedrückt ist ein LLM ein Computerprogramm, das mit genügend Beispielen gefüttert wurde, um menschliche Sprache oder andere Arten komplexer Daten erkennen und interpretieren zu können. Viele LLMs werden auf Daten aus dem Internet trainiert – Tausende oder Millionen von Gigabytes an Text. Die Qualität der Probem hat jedoch einen Einfluss darauf, wie gut LLMs natürliche Sprache lernen, sodass die Programmierer eines LLMs sich auch für einen stärker kuratierten Datensatz entscheiden können.

LLMs verwenden eine Art des maschinellen Lernens, das sogenannte Deep Learning, um zu verstehen, wie Zeichen, Wörter und Sätze zusammen funktionieren. Deep Learning beinhaltet die probabilistische Analyse unstrukturierter Daten, die es dem Deep-Learning-Modell schließlich ermöglicht, ohne menschliches Zutun Unterschiede zwischen verschiedenen Inhalten zu erkennen.

LLMs werden dann durch Abstimmung weiter trainiert: Sie werden auf die spezielle Aufgabe abgestimmt, die der Programmierer von ihnen erwartet, z. B. die Interpretation von Fragen und die Generierung von Antworten oder die Übersetzung von Text von einer Sprache in eine andere.

Wofür werden LLMs eingesetzt?

LLMs können für eine Reihe von Aufgaben trainiert werden. Eine der bekanntesten Anwendungen ist der Einsatz als generative KI: Wenn sie einen Prompt erhalten oder eine Frage gestellt bekommen, können sie Text als Antwort produzieren. Das öffentlich zugängliche LLM ChatGPT zum Beispiel kann als Reaktion auf Nutzereingaben Essays, Gedichte und andere Textformen erzeugen.

Jeder große, komplexe Datensatz kann zum Trainieren von LLMs verwendet werden, auch Programmiersprachen. Einige LLMs können Programmierern beim Schreiben von Code helfen. Sie können auf Anfrage Funktionen schreiben – oder mit etwas Code als Ausgangspunkt ein Programm fertig schreiben. LLMs können auch verwendet werden in:

  • Sentimentanalyse
  • DNA-Forschung
  • Kundenbetreuung
  • Chatbots
  • Online-Suche

Beispiele für LLMs sind ChatGPT (von OpenAI), Bard (Google), Llama (Meta) und Bing Chat (Microsoft). Copilot von GitHub ist ein weiteres Beispiel, allerdings für das Coding anstelle von natürlicher menschlicher Sprache.

Was sind die Vorteile und Grenzen von LLMs?

Ein Hauptmerkmal von LLMs ist ihre Fähigkeit, auf unvorhersehbare Abfragen zu reagieren. Ein herkömmliches Computerprogramm empfängt Befehle in seiner akzeptierten Syntax oder aus einem bestimmten Satz von Nutzereingaben. Ein Videospiel hat eine endliche Anzahl von Schaltflächen, eine Anwendung hat eine endliche Anzahl von Schaltflächen oder Eingaben, die ein Nutzer machen kann, und eine Programmiersprache besteht aus präzisen Wenn-Dann-Anweisungen.

Im Gegensatz dazu kann ein LLM auf die natürliche menschliche Sprache reagieren und mithilfe der Datenanalyse eine unstrukturierte Frage oder Aufforderung sinnvoll beantworten. Während ein typisches Computerprogramm eine Frage wie „Wie heißen die vier besten Funkbands der Geschichte?“ nicht erkennen würde, könnte ein LLM mit einer Liste von vier solchen Bands und einer einigermaßen stichhaltigen Begründung antworten.

In Bezug auf die bereitgestellten Informationen sind LLMs jedoch nur so zuverlässig wie die Daten, die sie aufnehmen. Wenn sie mit falschen Informationen gefüttert werden, werden sie auf Abfragen der Nutzer falsche Antworten geben. LLMs „halluzinieren“ auch manchmal: Sie erzeugen falsche Informationen, wenn sie nicht in der Lage sind, eine genaue Antwort zu geben. Im Jahr 2022 fragte beispielsweise das Nachrichtenmagazin Fast Company ChatGPT nach dem letzten Geschäftsquartal des Unternehmens Tesla. ChatGPT lieferte zwar einen kohärenten Nachrichtenartikel als Antwort, doch ein Großteil der darin enthaltenen Informationen war erfunden.

Was die Sicherheit betrifft, so sind auf LLMs basierende Anwendungen für Nutzer genauso anfällig für Fehler wie jede andere Anwendung. LLMs können auch durch böswillige Eingaben so manipuliert werden, dass sie bestimmte Arten von Antworten gegenüber anderen vorziehen – einschließlich gefährlicher oder ethisch nicht vertretbarer Antworten. Schließlich besteht eines der Sicherheitsprobleme bei LLMs darin, dass Nutzer geschützte, vertrauliche Daten in sie hochladen, um ihre eigene Produktivität zu steigern. LLMs verwenden jedoch den erhaltenen Input für das weitere Training ihrer Modelle und sind nicht als sichere Tresore konzipiert. Sie können als Antwort auf Abfragen anderer Nutzer vertrauliche Daten preisgeben.

Wie funktionieren LLMs?

Maschinelles Lernen und Deep Learning

Auf einer grundlegenden Ebene basieren LLMs auf maschinellem Lernen. Maschinelles Lernen ist ein Teilbereich der künstlichen Intelligenz und beschreibt die Praxis, ein Programm mit großen Datenmengen zu füttern, um ihm beizubringen, wie es ohne menschliches Zutun Merkmale in diesen Daten erkennen kann.

LLMs verwenden eine Art des maschinellen Lernens, das so genannte Deep Learning. Deep-Learning-Modelle können sich im Wesentlichen selbst trainieren, um Unterscheidungen ohne menschliches Eingreifen zu erkennen, auch wenn in der Regel eine gewisse menschliche Feinabstimmung erforderlich ist.

Deep Learning „lernt“ mit Hilfe von Wahrscheinlichkeiten. In dem Satz „The quick brown fox jumped over the lazy dog“ zum Beispiel kommen die Buchstaben „e“ und „o“ am häufigsten vor, nämlich jeweils viermal. Daraus könnte ein Deep-Learning-Modell (korrekt) schließen, dass diese Buchstaben zu den am häufigsten vorkommenden in englischsprachigen Texten gehören.

Realistisch betrachtet kann ein Deep-Learning-Modell aus einem einzigen Satz nicht wirklich etwas schließen. Aber nach der Analyse von Billionen von Sätzen könnte es genug lernen, um vorherzusagen, wie ein unvollständiger Satz logisch zu beenden ist, oder sogar seine eigenen Sätze zu generieren.

Neuronale Netzwerke

Um diese Art des Deep Learning möglich zu machen, sind LLMs auf neuronalen Netzwerken aufgebaut. So wie das menschliche Gehirn aus Neuronen aufgebaut ist, die sich miteinander verbinden und Signale senden, besteht ein künstliches neuronales Netzwerk (in der Regel abgekürzt als „neuronales Netzwerk“) aus Netzwerkknoten, die sich miteinander verbinden. Sie bestehen aus mehreren „Schichten“: einer Eingabeschicht, einer Ausgabeschicht und einer oder mehreren Schichten dazwischen. Die Schichten geben nur dann Informationen aneinander weiter, wenn ihre eigenen Ausgaben einen bestimmten Schwellenwert überschreiten.

Transformator-Modelle

Die spezielle Art von neuronalen Netzen, die für LLMs verwendet werden, heißen Transformer-Modelle. Transformer-Modelle können den Kontext lernen – besonders wichtig für die menschliche Sprache, die stark kontextabhängig ist. Transformer-Modelle erkennen mithilfe einer mathematischen Technik, die als „Selbstaufmerksamkeit“ bezeichnet wird, auf subtile Weise, wie die Elemente einer Sequenz miteinander in Beziehung stehen. Dadurch können sie den Kontext besser verstehen als andere Arten des maschinellen Lernens. So können sie z. B. nachvollziehen, wie das Ende eines Satzes mit seinem Anfang zusammenhängt und wie die Sätze eines Absatzes zueinander in Beziehung stehen.

Dadurch sind LLMs in der Lage, menschliche Sprache zu interpretieren, selbst wenn diese Sprache vage oder schlecht definiert ist, in ihnen bisher unbekannten Kombinationen angeordnet ist oder auf neue Weise kontextualisiert wurde. Auf einer gewissen Ebene „verstehen“ sie die Semantik, da sie Wörter und Konzepte nach ihrer Bedeutung zuordnen können, nachdem sie sie Millionen oder Milliarden Mal auf diese Weise gruppiert gesehen haben.

Wie Entwickler schnell mit der Entwicklung ihrer eigenen LLMs beginnen können

Um LLM-Anwendungen zu erstellen, benötigen Entwickler einen einfachen Zugriff auf mehrere Datensätze und sie brauchen Orte, an denen diese Datensätze gespeichert werden können. Sowohl die Speicherung in der Cloud als auch die On-Premise-Speicherung für diese Zwecke kann Investitionen in die Infrastruktur erfordern, die das Budget der Entwickler übersteigen. Hinzu kommt, dass Trainingsdatensätze in der Regel an mehreren Orten gespeichert werden, aber das Verschieben dieser Daten an einen zentralen Ort kann zu massiven Gebühren für ausgehenden Traffic führen.

Glücklicherweise bietet Cloudflare mehrere Dienste an, die es Entwicklern ermöglichen, LLM-Anwendungen und andere Arten von KI schnell auf den Weg zu bringen. Vectorize ist eine global verteilte Vektorendatenbank zur Abfrage von Daten, die in einem Objektspeicher ohne Gebühren für ausgehenden Traffic (R2) gespeichert sind, oder in Dokumenten, die in Workers Key Value gespeichert sind. In Kombination mit der Entwicklungsplattform Cloudflare Workers AI können Entwickler mit Cloudflare schnell mit dem Experimentieren mit eigenen LLMs beginnen.