Was ist Quantisierung beim maschinellen Lernen?

Durch die Quantisierung benötigen Modelle für maschinelles Lernen weniger Speicherplatz und Rechenleistung, was schnellere Reaktionszeiten und Kosteneinsparungen ermöglicht. Allerdings kann dies die Präzision der KI-Inferenz beeinträchtigen.

Lernziele

Nach Lektüre dieses Artikels können Sie Folgendes:

  • Quantisierung definieren
  • Beschreiben, wie die Quantisierung zu mehr Effizienz, aber zu weniger Präzision führt
  • Verstehen, warum und wann Quantisierung in der KI verwendet wird

Ähnliche Inhalte


Möchten Sie noch mehr erfahren?

Abonnieren Sie theNET, Cloudflares monatliche Zusammenfassung der beliebtesten Einblicke in das Internet!

Lesen Sie die Cloudflare Datenschutzrichtlinie, um zu erfahren, wie wir Ihre persönlichen Daten sammeln und verarbeiten.

Link zum Artikel kopieren

Was ist Quantisierung beim maschinellen Lernen?

Quantisierung ist eine Technik, um die Last der Ausführung von Modellen des maschinellen Lernens und der künstlichen Intelligenz (KI) zu erleichtern. Ziel ist es, den für KI-Inferenz erforderlichen Speicher zu reduzieren. Quantisierung ist besonders nützlich für Large Language Models (LLMs).

Im Allgemeinen ist Quantisierung ein Prozess, bei dem ein digitales Signal von einem hochpräzisen Format in ein Format umgewandelt wird, das weniger Platz einnimmt und daher etwas weniger präzise ist. Ziel ist es, das Signal zu verkleinern, damit es schneller verarbeitet werden kann. Im Bereich des maschinellen Lernens und der KI soll die Quantisierung die Ausführung von Modellen beschleunigen und/oder den Rechenaufwand verringern. Dadurch können Nutzer letztlich KI-Modelle auf preiswerterer Hardware ausführen, im Idealfall mit minimalen Einbußen bei der Genauigkeit.

Um zu veranschaulichen, warum KI-Inferenz durch Quantisierung weniger Speicher benötigt, kann man sich ein Rohr vorstellen: Dieses Rohr hat eine bestimmte Breite und durch dieses Rohr müssen viele Murmeln rollen. Wenn man große Murmeln rollen lässt, können nur zwei oder drei auf einmal durch einen Punkt im Rohr gelangen. Nimmt man kleine Murmeln, kommen viel mehr auf einmal durch. Greift man also zu kleinen Murmeln, kann man eine größere Menge an Murmeln schneller durch das Rohr befördern.

Quantisierung wandelt große Murmeln in kleine Murmeln um. Die für die Berechnung von Inferenzen erforderlichen Informationen nehmen weniger Platz im Speicher ein, sodass mehr Informationen schneller verarbeitet werden können und die KI-Berechnung effizienter wird.

Warum Quantisierung verwenden?

Die Modelle, die für das maschinelle Lernen – eine Form der KI – verwendet werden, sind äußerst komplex. Sie verbrauchen enorm viel Speicher und Rechenleistung. Tatsächlich hat die zunehmende Beliebtheit von KI zu Stromengpässen geführt. Server, auf denen fortschrittliche Modelle des maschinellen Lernens laufen, benötigen Unmengen an Strom. In manchen Fällen kann das öffentliche Stromnetz nicht den gesamten Bedarf decken. Dies hat zu einer Reihe kreativer Lösungen geführt, von mehr Solarenergie bis hin zur Reaktivierung stillgelegter Kernkraftwerke.

Die Quantisierung zielt darauf ab, die Rechenlast auf der anderen Seite zu reduzieren, sodass die KI-Modelle selbst weniger Strom verbrauchen. Für Entwickler und Unternehmen, die KI-Modelle einsetzen, kann dies die KI deutlich kosteneffizienter machen. Schließlich passt die Reaktivierung alter Kernkraftwerke nicht in jedes Budget.

Wie wirkt sich die Quantisierung auf die Präzision aus?

Um zu verstehen, warum die Quantisierung die Präzision beeinflusst, stellen Sie sich vor, wie Sie jemanden nach dem Weg fragen. Die Person könnte den Weg als eine Liste mit den einzelnen Straßen, den Straßennamen und den Namen der Straßen vor und nach jeder Straße beschreiben. Eine solche Wegbeschreibung ist zwar sehr präzise, aber Sie dürften Schwierigkeiten haben, sie sich zu merken. Umgekehrt könnte jemand stattdessen sagen:„An der zweiten Straße links, an der vierten rechts, dann an der ersten links.“ Das ist viel einfacher zu merken, wenn auch weniger präzise.

Bei der KI bedeutet Quantisierung, dass die Anzahl von Bits, die von Datenpunkten verwendet werden, reduziert wird. Der Verlust von Bits bedeutet, dass ein gewisses Maß an Genauigkeit verloren gehen kann. Die Folge könnten mehr Fehler in der Ausgabe sein (so wie ein Fahrer die Angabe „vierte Straße links“ im obigen Beispiel ohne Straßennamen falsch identifizieren könnte). Es gibt jedoch verschiedene Arten der Quantisierung, und einige sind präziser als andere.

In der Praxis gibt es Anwendungsfälle, bei denen das quantisierte KI-Modell „gut genug“ ist. Für diesen Anwendungsfall sind oft keine hochpräzise Ergebnisse erforderlich. Ein Beispiel für einen solchen Anwendungsfall ist das Tracking von Social-Media-Trends und -Erwähnungen, ohne dass genaue Datenpunkte erforderlich sind, wobei der Schwerpunkt auf der allgemeinen Stimmung und dem Engagement liegt.

Was ist Post-training Quantization (PTQ)?

Post-training Quantization (PTQ) – die Quantisierung nach dem Training – ist die Anwendung der Quantisierung auf vorhandene Modelle, die bereits trainiert wurden. PTQ kann relativ schnell auf trainierte Modelle angewendet werden. Dies steht im Gegensatz zum Quantization-aware Training (QAT) – dem Training, das sich der späteren Quantisierung „bewusst ist“. QAT findet vor dem Training eines Modells statt und erfordert viel Rechenleistung. PTQ funktioniert durch die Umwandlung von Gleitkommazahlen in Festkommazahlen.

Was ist Gleitkommadarstellung?

Die Gleitkommadarstellung ist eine hochpräzise Methode zur Darstellung von Zahlen. Sie wird häufig beim maschinellen Lernen und Deep Learning verwendet. Zahlen, die als Gleitkommadarstellung gespeichert werden, nehmen eine bestimmte Anzahl von Bits ein, entweder 16 oder 32 (je nach Art der verwendeten Gleitkommadarstellung).

Viele Quantisierungsarten reduzieren dies auf 8 Bits. Dadurch belegen quantisierte Zahlen nur halb so viel oder ein Viertel so viel Speicherplatz. Natürlich sind quantisierte Werte mit weniger Bits nicht so präzise wie Gleitkommazahlen – genau wie eine Zahl mit weniger Dezimalstellen (z. B. 3.14) weniger präzise ist als eine Zahl mit mehr Dezimalstellen (z. B. 3.141592654).

Was ist Activation-aware Weight Quantization (AWQ)?

Der Begriff Activation-aware Weight Quantization (AWQ) – eine Quantisierung, die sich der Aktivierungen „bewusst ist“ – beschreibt eine Technik, die darauf abzielt, Effizienzverbesserungen mit Präzision in Einklang zu bringen. AWQ schützt die wichtigsten Gewichte innerhalb eines Modells vor Veränderungen. (Gewichte sind Werte, die die Beziehung zwischen Elementen innerhalb eines Datensatzes messen.) Denken Sie an das obige Beispiel mit der Webbeschreibung zurück. Stellen Sie sich vor, statt „zweite links, vierte rechts, erste links“ sagt ihr Wegweise „An der zweiten Straße links, rechts in die 12th Street, dann an der ersten links“. Diese Anweisung enthält einige genauere Informationen, ist aber immer noch eine relativ kurze (und leicht zu merkende) Beschreibung. AWQ funktioniert ähnlich: Es schützt einige ganze Zahlen eines Modells vor Veränderungen, während andere verändert werden.

Cloudflare Workers AI unterstützt mehrere Large Language Models (LLMs), die sowohl Gleitkommaquantisierung als auch AWQ enthalten, sodass sie speicherschonender sind und weniger Rechenleistung verbrauchen, während die Präzision erhalten bleibt. Mehr erfahren Sie in der Dokumentation zu Cloudflare Workers AI.