Generative künstliche Intelligenz (KI) ist eine Art von Computerprogramm, das als Reaktion auf menschliche Prompts Inhalt produzieren kann.
Nach Lektüre dieses Artikels können Sie Folgendes:
Link zum Artikel kopieren
Generative künstliche Intelligenz (KI) ist eine Art von Deep-Learning-Modell, das als Reaktion auf Prompts Texte, Bilder, Computercode und audiovisuellen Inhalt erzeugen kann.
Modelle generativer KI werden mit großen Mengen von Rohdaten trainiert – im Allgemeinen mit der gleichen Art von Daten, für die sie entwickelt wurden. Anhand dieser Informationen lernen sie, auf beliebigen Input eine Antwort zu generieren, die mit statistischer Wahrscheinlichkeit für diese Eingaben relevant sind. So werden beispielsweise einige Modelle generativer KI auf große Textmengen trainiert, um auf schriftliche Eingabeaufforderungen (Prompts) in einer scheinbar organischen und originellen Weise reagieren zu können.
Einfacher ausgedrückt: Generative KI kann auf Anfragen ähnlich reagieren wie menschliche Künstler oder Autoren, nur schneller. Ob der von diesen Modellen erzeugte Inhalt als „neu“ oder „originell“ gelten werden können, ist umstritten. In vielen Fällen können sie jedoch mit den kreativen Fähigkeiten des Menschen mithalten oder diese sogar übertreffen.
Bekannte Modelle der generativen KI sind ChatGPT für die Texterstellung und DALL-E für die Bilderzeugung. Viele Unternehmen haben auch eigene Modelle entwickelt.
Generative KI ist eine Form des maschinellen Lernens, d. h. sie stützt sich auf mathematische Analysen, um relevante Konzepte, Bilder oder Muster zu finden. Anhand dieser Analyse wird dann Inhalt erstellt, der mit statistischer Wahrscheinlichkeit ähnlich oder verwandt mit den erhaltenen Prompts ist.
Generative KI basiert auf einer Form des maschinellen Lernens, dem so genannten Deep Learning. Deep-Learning-Modelle sind leistungsfähig genug, um aus nicht beschrifteten Daten zu lernen. Sie verwenden eine Art von Computerarchitektur, die als neuronales Netzwerk bezeichnet wird. Solche Architekturen bestehen aus mehreren Knoten, die Daten aneinander weitergeben, ähnlich wie ein menschliches Gehirn Daten über Neuronen weitergibt. Neuronale Netzwerke sind in der Lage, anspruchsvolle und komplexe Aufgaben zu erfüllen.
Modelle generativer KI, die Sprache interpretieren können, müssen mehr als nur einzelne Wörter verstehen. Sie müssen in der Lage sein, ganze Sätze, Absätze und Dokumente zu interpretieren. Frühe Modelle des maschinellen Lernens hatten Schwierigkeiten, ganze Sätze zu verstehen, und „vergaßen“ den Anfang eines Satzes, wenn sie das Ende erreicht hatten. Dies führte zu Fehlinterpretationen.
Moderne Modelle der generativen KI verwenden eine bestimmte Art von neuronalen Netzwerken, die so genannten Transformer (Transformers). Diese nutzen eine Fähigkeit, die als Self-Attention (Selbstaufmerksamkeit oder Selbstbeobachtung) bezeichnet wird, um zu erkennen, wie Elemente in einer Sequenz miteinander verbunden sind. Transformer ermöglichen es generativen KI-Modellen, große Textblöcke und nicht nur einzelne Wörter und Sätze zu verarbeiten und zu kontextualisieren.
Um gut zu funktionieren, müssen Modelle der generativen KI mit einer großen Datenmengen gefüttert werden: in den meisten Fällen mit mehr Daten, als ein Mensch in seinem ganzen Leben verarbeiten könnte. So wurde beispielsweise das große Sprachmodell ChatGPT mit Millionen von Dokumenten trainiert. Ein Bildgenerator kann mit Millionen von Bildern trainiert werden, ein Codegenerator mit Milliarden von Codezeilen.
Die Trainingsdaten werden in einer Vektordatenbank aufbewahrt. In einer solchen Datenbank werden die Datenpunkte als Vektoren gespeichert – oder als Koordinatensatz in einem mehrdimensionalen Feld. Auf einer Landkarte verwenden wir Längen- und Breitengrade, um nahe gelegene Orte zu finden. Modelle des maschinellen Lernens können die Daten als Vektoren speichern und mit ihrer Hilfe „nahe gelegene“ Datenpunkte finden. Auf diese Weise können die Modelle Assoziationen herstellen und den Kontext eines Wortes, eines Bildes, eines Tons oder einer anderen Art von Inhalt verstehen.
Sobald das Modell der generativen KI ein gewisses Maß an Feinabstimmung erreicht hat, benötigt es nicht mehr ganz so viele Daten, um ein Ergebnis zu liefern. Beispielsweise können KI-Modelle für die Sprachgenerierung mit Tausenden von Stunden an Sprachaufnahmen trainiert werden. Einmal abgestimmt, benötigen einige Modelle jedoch nur wenige Sekunden einer Aufnahme, um die Stimme eines Menschen realistisch zu imitieren.
Modelle generativer KI erfreuen sich zunehmender Beliebtheit, da sie eine Reihe von potenziellen Vorteilen bieten. Zu diesen Vorteilen gehören unter anderem:
Die generative KI hat jedoch auch ihre Nachteile, wie zum Beispiel:
„Großes Sprachmodell“ (Large Language Model oder kurz LLM) ist der Fachbegriff für Modelle der generativen KI, die in der Lage sind, Sprache zu verarbeiten und Text zu erzeugen, einschließlich von Menschen gesprochener Sprachen und Programmiersprachen. Bekannte LLMs sind ChatGPT (von OpenAI), Llama (von Meta), Bard (von Google), Copilot (von GitHub) und Bing Chat (von Microsoft).
KI-Bildgeneratoren funktionieren ähnlich wie LLMs, allerdings für Bilder statt für Text. DALL-E und Midjourney sind zwei Beispiele für beliebte Bildgeneratoren, die auf generativer KI basieren.
Cloudflare ermöglicht es Entwicklern und Unternehmen, ihre eigenen Modelle generativer KI zu erstellen. Cloudflare bietet Vectorize an, damit Entwickler Einbettungen auf dem globalen Cloudflare-Netzwerk aus ihren eigenen Daten generieren und speichern können, und Cloudflare Workers AI für die Ausführung generativer KI-Aufgaben auf einem globalen Netzwerk von GPUs. Erfahren Sie mehr darüber, wie Cloudflare die nächste Generation der generativen KI ermöglicht.