Was ist AI Data Poisoning (KI-Datenmanipulation)?

AI Data Poisoning (KI-Datenmanipulation) ist ein bewusster Versuch, die Trainingsdaten eines KI-Modells zu verfälschen, sodass die Ergebnisse verzerrt werden.

Lernziele

Nach Lektüre dieses Artikels können Sie Folgendes:

  • Wie ein Data Poisoning-Angriff funktioniert,
  • Die verschiedenen Arten von KI- und LLM-Datenmanipulationsangriffen beschreiben
  • Methoden zur Prävention von Datenmanipulation auflisten

Ähnliche Inhalte


Möchten Sie noch mehr erfahren?

Abonnieren Sie theNET, Cloudflares monatliche Zusammenfassung der beliebtesten Einblicke in das Internet!

Lesen Sie die Cloudflare Datenschutzrichtlinie, um zu erfahren, wie wir Ihre persönlichen Daten sammeln und verarbeiten.

Link zum Artikel kopieren

Was ist AI Data Poisoning (KI-Datenmanipulationsangriff)?

Datenmanipulation, die durch künstliche Intelligenz (KI) verursacht wird, liegt vor, wenn ein Angreifer die Ergebnisse einer KI oder eines Machine Learning-Modells manipuliert, indem er dessen Trainingsdaten verändert. Das Ziel des Angreifers bei AI Data Poisoning besteht darin, das Modell dazu zu bringen, während der Inferenz verzerrte oder gefährliche Ergebnisse zu produzieren.

KI- und Machine Learning-Modelle* haben im Wesentlichen zwei Bestandteile: Trainingsdaten und Algorithmen. Stellen Sie sich einen Algorithmus wie den Motor eines Autos vor und die Trainingsdaten sind das Benzin, das dem Motor etwas zum Laufen gibt: Daten bringen ein KI-Modell in Gang. Ein Data-Poisoning-Angriff ist so, als ob jemand dem Benzin eine zusätzliche Zutat hinzufügt, die das Auto schlecht fahren lässt.

Die potenziellen Folgen von KI-Datenmanipulation sind schwerwiegender geworden, da immer mehr Unternehmen und Menschen beginnen, sich bei ihren alltäglichen Aktivitäten auf KI zu verlassen. Ein erfolgreicher AI Data Poisoning-Angriff kann das Output eines Modells dauerhaft so verändern, dass die Person hinter dem Angriff begünstigt wird.

KI-Datenmanipulation ist für Large Language Models (LLMs) ein besonderes Problem. Datenmanipulation ist in den OWASP Top 10 für LLM gelistet, und in den letzten Jahren haben Forscher vor Data Poisoning-Sicherheitslücken gewarnt, die Modelle für das Gesundheitswesen, die Codegenerierung und die Texterstellung betreffen.

*„Machine Learning“ und „künstliche Intelligenz“ werden manchmal synonym verwendet, obwohl sich die beiden Begriffe auf leicht unterschiedliche Arten von Rechenfunktionen beziehen. Machine Learning ist jedoch eine Form der KI.

Wie funktioniert ein „Data Poisoning“-Angriff (Datenmanipulationsangriff)?

KI-Entwickler verwenden große Datenmengen, um ihre Modelle zu trainieren. Im Wesentlichen liefert der Trainingsdatensatz den Modellen Beispiele, und die Modelle lernen dann, anhand dieser Beispiele zu verallgemeinern. Je mehr Beispiele ein Datensatz enthält, desto verfeinerter und genauer wird das Modell – solange die Daten korrekt und relativ unvoreingenommen sind.

Durch Datenmanipulation werden die Trainingsdaten absichtlich verzerrt (Bias), wodurch der Ausgangspunkt für die Algorithmen des Modells geändert wird, sodass die Ergebnisse anders ausfallen, als von den Entwicklern ursprünglich beabsichtigt.

Stellen Sie sich vor, eine Lehrerin schreibt eine Mathematikaufgabe an eine Tafel, damit ihre Schüler sie lösen können: zum Beispiel „47 * (18 + 5) = ?“. Die Antwort lautet 1.081. Aber wenn eine Schülerin sich hinter sie schleicht und „47“ in „46“ ändert, dann lautet die Antwort nicht mehr 1.081, sondern 1.058. Data-Poisoning-Angriffe sind wie dieser hinterhältige Schüler: Wenn sich die Startdaten leicht ändern, ändert sich auch die Antwort.

Wie laufen AI Data Poisoning-Angriffe (KI-Datenmanipulationsangriffe) ab?

Unbefugte Änderungen an Trainingsdaten können aus verschiedenen Quellen stammen.

Insider-Angriff: Jemand mit berechtigtem Zugriff auf die Trainingsdaten kann Verzerrungen (Bias), falsche Daten oder andere Änderungen einführen, die die Ergebnisse verfälschen. Diese Angriffe sind schwieriger zu erkennen und zu stoppen als Angriffe durch einen externen Dritten ohne autorisierten Zugriff auf die Daten.

Supply Chain-Angriff: Die meisten KI- und Machine-Learning-Modelle stützen sich zum Training ihrer Modelle auf Datensätze aus verschiedenen Quellen. Eine oder mehrere dieser Quellen könnten „manipulierte“ Daten enthalten, die sich auf jedes Modell auswirken, das diese Daten zum Training und zur Feinabstimmung von Modellen verwendet.

Unautorisierter Zugriff: Es gibt eine Reihe von Möglichkeiten, wie ein Angreifer Zugriff auf einen Trainingsdatensatz erhalten könnte, von lateraler Bewegung über eine vorherige Kompromittierung über den Erwerb der Zugangsdaten eines Entwicklers mithilfe von Phishing bis hin zu zahlreichen potenziellen Angriffen dazwischen.

Was sind die beiden wichtigsten Kategorien von Datenmanipulationsangriffen?

  • Direkte (oder gezielte) Angriffe: Diese Angriffe zielen darauf ab, die Ausgabe eines Modells nur als Reaktion auf bestimmte Abfragen oder Aktionen zu verzerren oder zu verändern. Ein solcher Angriff würde ein ansonsten unverändertes Modell hinterlassen, das auf fast alle Anfragen die erwarteten Antworten gibt. So könnte ein Angreifer beispielsweise einen KI-basierten E-Mail-Sicherheitsfilter so manipulieren, dass er bestimmte bösartige URLs durchlässt, ansonsten aber wie erwartet funktioniert.
  • Indirekte (oder nicht zielgerichtete) Angriffe: Diese Angriffe zielen darauf ab, die Performance eines Modells im Allgemeinen zu beeinträchtigen. Ein indirekter Angriff kann darauf abzielen, die Performance des Modells als Ganzes zu verlangsamen oder es auf bestimmte Antworten auszurichten. Ein nationalstaatlicher Angreifer könnte beispielsweise LLMs für allgemeine Verwendung so manipulieren, dass sie innerhalb eines bestimmten Landes zu Propaganda-Zwecken Fehlinformationen verbreiten.

Welche Arten von Data Poisoning-Angriffen (Datenmanipulationsangriffen) gibt es?

Es gibt mehrere Möglichkeiten, wie ein Angreifer die Daten eines KI-Modells für seine Zwecke manipulieren kann. Einige der wichtigsten Techniken, die man kennen sollte, sind:

  • Backdoor-Poisoning: Bei diesem Angriff wird eine versteckte Schwachstelle in das Modell eingeführt, sodass es sich als Reaktion auf bestimmte, dem Angreifer bekannte Auslöser auf unsichere Weise verhält. Backdoor Poisoning ist besonders gefährlich, da sich ein KI-Modell mit einer versteckten Hintertür ansonsten normal verhält.
  • Fehlbeschriftung (Mislabeling): Ein Angreifer kann die Art und Weise, wie Daten innerhalb des Trainingsdatensatzes eines Modells gekennzeichnet werden, ändern, was dazu führt, dass das Modell Elemente nach dem Training falsch identifiziert.
  • Dateninjektion und -manipulation: Bei einem solchen Angriff werden Daten in einem Datensatz verändert, ergänzt oder entfernt. Diese Angriffe zielen darauf ab, das KI-Modell in eine bestimmte Richtung zu verzerren.
  • Verfügbarkeitsangriff: Dieser Angriff zielt darauf ab, das Modell zu verlangsamen oder zum Absturz zu bringen, indem Daten eingeschleust werden, die die Gesamtperformance des Modells beeinträchtigen.

Wie Sie Datenmanipulation verhindern können

Datenvalidierung: Vor dem Training sollten Datensätze analysiert werden, um bösartige, verdächtige oder abweichende Daten zu identifizieren.

Prinzip der minimalen Rechtevergabe: Mit anderen Worten: Nur diejenigen Personen und Systeme sollten Zugang zu Trainingsdaten haben, die diese unbedingt benötigen. Das Prinzip der minimalen Rechtevergabe ist ein Grundpfeiler eines Zero Trust-Sicherheitsansatzes, der helfen kann, laterale Bewegung und die Kompromittierung von Zugangsdaten zu verhindern.

Verschiedene Datenquellen: Die Nutzung eines größeren Spektrums von Datenquellen kann dazu beitragen, die Auswirkungen von Verzerrungen in einem bestimmten Datensatz zu reduzieren.

Überwachung und Prüfung: Durch die Nachverfolgung und Aufzeichnung, wer Schulungsdaten geändert hat, was geändert wurde und wann es geändert wurde, können Entwickler und Entwicklerinnen verdächtige Muster erkennen oder die Aktivitäten eines Angreifers nach der Infizierung des Datensatzes zurückverfolgen.

Adversarial Training: Hierbei wird ein KI-Modell so trainiert, dass es absichtlich irreführende Eingaben erkennt.

Andere Maßnahmen für Anwendungsschutz wie Firewalls können auch auf KI-Modelle angewendet werden. Um Data Poisoning und andere Angriffe zu verhindern, bietet Cloudflare Firewall for AI an. Sie kann vor LLMs eingesetzt werden, um Missbrauch zu erkennen und zu blockieren, bevor er diese erreicht. Erfahren Sie mehr über Firewall for AI.