What is AI data poisoning?

AI data poisoning is a deliberate attempt to bias an AI model’s training data so that it produces dangerous or inaccurate results. Someone might, for example, alter an AI model's data so that it lies to or tricks its users. AI data poisoning is of particular concern for large language models (LLMs), so it is important for AI developers to carefully safeguard and vet their training data.

How does data poisoning affect AI models?

By introducing slight changes to training data, an attacker can significantly alter an AI model’s outputs — just as a math problem will lead to a different answer if the initial values change (e.g. "3 + 3 = 6" vs. "3 + 4 = 7"). A data-poisoned model will therefore perform differently from how its developers and users expect, and possibly give responses that benefit the attacker or put users at risk.

What are the main types of AI data poisoning attacks?

The primary data poisoning attack methods include backdoor poisoning, mislabeling, data injection, data manipulation, and availability attacks. Each type of data poisoning attack aims to bias or degrade AI model performance.

What are common attack vectors for AI data poisoning?

Attackers may use insider access, supply chain attacks via tainted external data, or unauthorized access to manipulate or corrupt training datasets.

What are the potential consequences of data poisoning?

Data poisoning can permanently alter a model’s output to favor the attacker. It can cause a model to produce propaganda or hate speech, make inaccurate recommendations, provide false data, or promote malware downloads.

What are some ways to prevent AI data poisoning?

To prevent AI data poisoning, protecting collections of training data from unauthorized alteration is crucial. Prevention methods include data validation, applying the principle of least privilege, using diverse data sources, monitoring and auditing data changes, and using adversarial training to get models to recognize misleading inputs.

Was ist AI Data Poisoning (KI-Datenmanipulation)?

AI Data Poisoning (KI-Datenmanipulation) ist ein bewusster Versuch, die Trainingsdaten eines KI-Modells zu verfälschen, sodass die Ergebnisse verzerrt werden.

Lernziele

Nach Lektüre dieses Artikels können Sie Folgendes:

Wie ein Data Poisoning-Angriff funktioniert,
Die verschiedenen Arten von KI- und LLM-Datenmanipulationsangriffen beschreiben
Methoden zur Prävention von Datenmanipulation auflisten

Ähnliche Inhalte

Was ist künstliche Intelligenz (KI)?

Was ist maschinelles Lernen?

Was ist ein LLM?

Der Unterschied zwischen KI-Inferenz und Training

OWASP Top 10 für LLMs

Möchten Sie noch mehr erfahren?

Abonnieren Sie theNET und erhalten Sie monatlich die meistdiskutierten Internet-Insights von Cloudflare.

Link zum Artikel kopieren

Zusammenfassung des Artikels:

Unter Data Poisoning (Datenvergiftung) versteht man die Einspeisung von bösartigen Informationen in Trainingsdatensätze, um das Verhalten eines KI-Modells zu manipulieren und dessen Genauigkeit, Zuverlässigkeit und die Gesamtintegrität der Ergebnisse im Machine Learning zu beeinträchtigen.
Angreifer nutzen KI-Datenvergiftung, um Hintertüren zu schaffen oder Ausgaben zu verzerren, sodass sie Sicherheitsfilter umgehen oder das System zu bestimmten fehlerhaften Vorhersagen veranlassen können.
Der Schutz vor Datenvergiftung erfordert eine rigorose Datenbereinigung, die Überprüfung von Trainingsquellen und eine kontinuierliche Überwachung, um schädliche Eingaben zu erkennen und zu neutralisieren, bevor sie das Modell verfälschen.

Was ist AI Data Poisoning (KI-Datenmanipulationsangriff)?

Datenmanipulation, die durch künstliche Intelligenz (KI) verursacht wird, liegt vor, wenn ein Angreifer die Ergebnisse einer KI oder eines Machine Learning-Modells manipuliert, indem er dessen Trainingsdaten verändert. Das Ziel des Angreifers bei AI Data Poisoning besteht darin, das Modell dazu zu bringen, während der Inferenz verzerrte oder gefährliche Ergebnisse zu produzieren.

KI- und Machine Learning-Modelle* haben im Wesentlichen zwei Bestandteile: Trainingsdaten und Algorithmen. Stellen Sie sich einen Algorithmus wie den Motor eines Autos vor und die Trainingsdaten sind das Benzin, das dem Motor etwas zum Laufen gibt: Daten bringen ein KI-Modell in Gang. Ein Data-Poisoning-Angriff ist so, als ob jemand dem Benzin eine zusätzliche Zutat hinzufügt, die das Auto schlecht fahren lässt.

Die potenziellen Folgen von KI-Datenmanipulation sind schwerwiegender geworden, da immer mehr Unternehmen und Menschen beginnen, sich bei ihren alltäglichen Aktivitäten auf KI zu verlassen. Ein erfolgreicher AI Data Poisoning-Angriff kann das Output eines Modells dauerhaft so verändern, dass die Person hinter dem Angriff begünstigt wird.

KI-Datenmanipulation ist für Large Language Models (LLMs) ein besonderes Problem. Datenmanipulation ist in den OWASP Top 10 für LLM gelistet, und in den letzten Jahren haben Forscher vor Data Poisoning-Sicherheitslücken gewarnt, die Modelle für das Gesundheitswesen, die Codegenerierung und die Texterstellung betreffen.

*„Machine Learning“ und „künstliche Intelligenz“ werden manchmal synonym verwendet, obwohl sich die beiden Begriffe auf leicht unterschiedliche Arten von Rechenfunktionen beziehen. Machine Learning ist jedoch eine Form der KI.

Wie funktioniert ein „Data Poisoning“-Angriff (Datenmanipulationsangriff)?

KI-Entwickler verwenden große Datenmengen, um ihre Modelle zu trainieren. Im Wesentlichen liefert der Trainingsdatensatz den Modellen Beispiele, und die Modelle lernen dann, anhand dieser Beispiele zu verallgemeinern. Je mehr Beispiele ein Datensatz enthält, desto verfeinerter und genauer wird das Modell – solange die Daten korrekt und relativ unvoreingenommen sind.

Durch Datenmanipulation werden die Trainingsdaten absichtlich verzerrt (Bias), wodurch der Ausgangspunkt für die Algorithmen des Modells geändert wird, sodass die Ergebnisse anders ausfallen, als von den Entwicklern ursprünglich beabsichtigt.

Stellen Sie sich vor, eine Lehrerin schreibt eine Mathematikaufgabe an eine Tafel, damit ihre Schüler sie lösen können: zum Beispiel „47 * (18 + 5) = ?“. Die Antwort lautet 1.081. Aber wenn eine Schülerin sich hinter sie schleicht und „47“ in „46“ ändert, dann lautet die Antwort nicht mehr 1.081, sondern 1.058. Data-Poisoning-Angriffe sind wie dieser hinterhältige Schüler: Wenn sich die Startdaten leicht ändern, ändert sich auch die Antwort.

Wie laufen AI Data Poisoning-Angriffe (KI-Datenmanipulationsangriffe) ab?

Unbefugte Änderungen an Trainingsdaten können aus verschiedenen Quellen stammen.

Insider-Angriff: Jemand mit berechtigtem Zugriff auf die Trainingsdaten kann Verzerrungen (Bias), falsche Daten oder andere Änderungen einführen, die die Ergebnisse verfälschen. Diese Angriffe sind schwieriger zu erkennen und zu stoppen als Angriffe durch einen externen Dritten ohne autorisierten Zugriff auf die Daten.

Supply Chain-Angriff: Die meisten KI- und Machine-Learning-Modelle stützen sich zum Training ihrer Modelle auf Datensätze aus verschiedenen Quellen. Eine oder mehrere dieser Quellen könnten „manipulierte“ Daten enthalten, die sich auf jedes Modell auswirken, das diese Daten zum Training und zur Feinabstimmung von Modellen verwendet.

Unautorisierter Zugriff: Es gibt eine Reihe von Möglichkeiten, wie ein Angreifer Zugriff auf einen Trainingsdatensatz erhalten könnte, von lateraler Bewegung über eine vorherige Kompromittierung über den Erwerb der Zugangsdaten eines Entwicklers mithilfe von Phishing bis hin zu zahlreichen potenziellen Angriffen dazwischen.

Was sind die beiden wichtigsten Kategorien von Datenmanipulationsangriffen?

Direkte (oder gezielte) Angriffe: Diese Angriffe zielen darauf ab, die Ausgabe eines Modells nur als Reaktion auf bestimmte Abfragen oder Aktionen zu verzerren oder zu verändern. Ein solcher Angriff würde ein ansonsten unverändertes Modell hinterlassen, das auf fast alle Anfragen die erwarteten Antworten gibt. So könnte ein Angreifer beispielsweise einen KI-basierten E-Mail-Sicherheitsfilter so manipulieren, dass er bestimmte bösartige URLs durchlässt, ansonsten aber wie erwartet funktioniert.
Indirekte (oder nicht zielgerichtete) Angriffe: Diese Angriffe zielen darauf ab, die Performance eines Modells im Allgemeinen zu beeinträchtigen. Ein indirekter Angriff kann darauf abzielen, die Performance des Modells als Ganzes zu verlangsamen oder es auf bestimmte Antworten auszurichten. Ein nationalstaatlicher Angreifer könnte beispielsweise LLMs für allgemeine Verwendung so manipulieren, dass sie innerhalb eines bestimmten Landes zu Propaganda-Zwecken Fehlinformationen verbreiten.

Welche Arten von Data Poisoning-Angriffen (Datenmanipulationsangriffen) gibt es?

Es gibt mehrere Möglichkeiten, wie ein Angreifer die Daten eines KI-Modells für seine Zwecke manipulieren kann. Einige der wichtigsten Techniken, die man kennen sollte, sind:

Backdoor-Poisoning: Bei diesem Angriff wird eine versteckte Schwachstelle in das Modell eingeführt, sodass es sich als Reaktion auf bestimmte, dem Angreifer bekannte Auslöser auf unsichere Weise verhält. Backdoor Poisoning ist besonders gefährlich, da sich ein KI-Modell mit einer versteckten Hintertür ansonsten normal verhält.
Fehlbeschriftung (Mislabeling): Ein Angreifer kann die Art und Weise, wie Daten innerhalb des Trainingsdatensatzes eines Modells gekennzeichnet werden, ändern, was dazu führt, dass das Modell Elemente nach dem Training falsch identifiziert.
Dateninjektion und -manipulation: Bei einem solchen Angriff werden Daten in einem Datensatz verändert, ergänzt oder entfernt. Diese Angriffe zielen darauf ab, das KI-Modell in eine bestimmte Richtung zu verzerren.
Verfügbarkeitsangriff: Dieser Angriff zielt darauf ab, das Modell zu verlangsamen oder zum Absturz zu bringen, indem Daten eingeschleust werden, die die Gesamtperformance des Modells beeinträchtigen.

Wie Sie Datenmanipulation verhindern können

Datenvalidierung: Vor dem Training sollten Datensätze analysiert werden, um bösartige, verdächtige oder abweichende Daten zu identifizieren.

Prinzip der Vergabe minimaler Zugriffsrechte: Mit anderen Worten: Nur diejenigen Personen und Systeme sollten Zugang zu Trainingsdaten haben, die diese unbedingt benötigen. Das Prinzip der Vergabe minimaler Zugriffsrechte ist ein Grundpfeiler eines Zero Trust-Sicherheitsansatzes, der helfen kann, laterale Bewegung und die Kompromittierung von Zugangsdaten zu verhindern.

Verschiedene Datenquellen: Die Nutzung eines größeren Spektrums von Datenquellen kann dazu beitragen, die Auswirkungen von Verzerrungen in einem bestimmten Datensatz zu reduzieren.

Überwachung und Prüfung: Durch die Nachverfolgung und Aufzeichnung, wer Schulungsdaten geändert hat, was geändert wurde und wann es geändert wurde, können Entwickler und Entwicklerinnen verdächtige Muster erkennen oder die Aktivitäten eines Angreifers nach der Infizierung des Datensatzes zurückverfolgen.

Adversarial Training: Hierbei wird ein KI-Modell so trainiert, dass es absichtlich irreführende Eingaben erkennt.

Andere Maßnahmen für Anwendungsschutz wie Firewalls können auch auf KI-Modelle angewendet werden. Um Data Poisoning und andere Angriffe zu verhindern, bietet Cloudflare AI Security for Apps an. Sie kann vor LLMs eingesetzt werden, um Missbrauch zu erkennen und zu blockieren, bevor er diese erreicht. Erfahren Sie mehr über AI Security for Apps.

FAQs

Was ist AI Data Poisoning (KI-Datenmanipulationsangriff)?

KI-Datenmanipulation (AI Data Poisoning) ist ein bewusster Versuch, die Trainingsdaten eines KI-Modells so zu manipulieren, dass es gefährliche oder inkorrekte Ergebnisse liefert. Jemand könnte zum Beispiel die Daten eines KI-Modells so verändern, dass es seine Nutzer belügt oder täuscht. KI-Datenmanipulation ist für große Sprachmodelle (LLMs) von besonderer Bedeutung, daher ist es wichtig, dass KI-Entwickler ihre Trainingsdaten sorgfältig schützen und überprüfen.

Wie wirkt sich Datenmanipulation auf KI-Modelle aus?

Durch geringfügige Änderungen der Trainingsdaten kann ein Angreifer die Outputs eines KI-Modells erheblich verändern – genauso wie eine mathematische Aufgabe zu einer anderen Antwort führt, wenn sich die Anfangswerte ändern (z. B. „3 + 3 = 6“ vs. „3 + 4 = 7“ Ein datenmanipuliertes Modell wird sich daher anders verhalten, als es seine Entwickler und Nutzer erwarten, und möglicherweise Antworten geben, die dem Angreifer nützen oder die Nutzer gefährden.

Was sind die wichtigsten Arten von Data Poisoning-Angriffen (Datenmanipulationsangriffen)?

Zu den primären Methoden von Data Poisoning-Angriffen gehören Backdoor-Poisoning, Fehlbeschriftung, Dateninjektion, Datenmanipulation und Verfügbarkeitsangriffe. Jede Art von Data Poisoning-Angriff zielt darauf ab, die Performance von KI-Modellen zu verfälschen oder zu beeinträchtigen.

Was sind gängige Angriffsvektoren für AI Data Poisoning (KI-Datenmanipulationsangriffe)?

Angreifer können Insider-Zugang, Supply-Chain-Angriffe über verfälschte externe Daten oder unbefugten Zugriff nutzen, um Trainingsdatensätze zu manipulieren oder zu korrumpieren.

Was sind die potenziellen Folgen von Datenmanipulation in KI-Modellen?

Datenmanipulation kann das Output eines Modells dauerhaft verändern, um den Angreifer zu begünstigen. Es kann dazu führen, dass ein Modell Propaganda oder Hassreden erzeugt, ungenaue Empfehlungen gibt, falsche Daten bereitstellt oder den Download von Schadsoftware fördert.

Wie kann man KI-Datenmanipulation verhindern?

Um die Manipulation der von einer KI genutzten Daten zu verhindern, müssen Trainingsdaten vor unbefugten Änderungen geschützt werden. Zu den dafür eingesetzten Präventionsmethoden gehören die Datenvalidierung, die Anwendung des Prinzips der Vergabe geringstmöglicher Zugriffsrechte, die Nutzung verschiedener Datenquellen, die Überwachung und Prüfung von Datenänderungen und der Einsatz von „Adversarial Training“, damit Modelle irreführende Eingaben erkennen können.

ERSTE SCHRITTE

Künstliche Intelligenz

Maschinelles Lernen

Big Data

Lernzentrum