AI Data Poisoning (KI-Datenmanipulation) ist ein bewusster Versuch, die Trainingsdaten eines KI-Modells zu verfälschen, sodass die Ergebnisse verzerrt werden.
Nach Lektüre dieses Artikels können Sie Folgendes:
Ähnliche Inhalte
Was ist künstliche Intelligenz (KI)?
Was ist maschinelles Lernen?
Was ist ein Large Language Model (LLM)?
Der Unterschied zwischen KI-Inferenz und Training
OWASP Top 10 für LLMs
Abonnieren Sie theNET, Cloudflares monatliche Zusammenfassung der beliebtesten Einblicke in das Internet!
Link zum Artikel kopieren
Datenmanipulation, die durch künstliche Intelligenz (KI) verursacht wird, liegt vor, wenn ein Angreifer die Ergebnisse einer KI oder eines Machine Learning-Modells manipuliert, indem er dessen Trainingsdaten verändert. Das Ziel des Angreifers bei AI Data Poisoning besteht darin, das Modell dazu zu bringen, während der Inferenz verzerrte oder gefährliche Ergebnisse zu produzieren.
KI- und Machine Learning-Modelle* haben im Wesentlichen zwei Bestandteile: Trainingsdaten und Algorithmen. Stellen Sie sich einen Algorithmus wie den Motor eines Autos vor und die Trainingsdaten sind das Benzin, das dem Motor etwas zum Laufen gibt: Daten bringen ein KI-Modell in Gang. Ein Data-Poisoning-Angriff ist so, als ob jemand dem Benzin eine zusätzliche Zutat hinzufügt, die das Auto schlecht fahren lässt.
Die potenziellen Folgen von KI-Datenmanipulation sind schwerwiegender geworden, da immer mehr Unternehmen und Menschen beginnen, sich bei ihren alltäglichen Aktivitäten auf KI zu verlassen. Ein erfolgreicher AI Data Poisoning-Angriff kann das Output eines Modells dauerhaft so verändern, dass die Person hinter dem Angriff begünstigt wird.
KI-Datenmanipulation ist für Large Language Models (LLMs) ein besonderes Problem. Datenmanipulation ist in den OWASP Top 10 für LLM gelistet, und in den letzten Jahren haben Forscher vor Data Poisoning-Sicherheitslücken gewarnt, die Modelle für das Gesundheitswesen, die Codegenerierung und die Texterstellung betreffen.
*„Machine Learning“ und „künstliche Intelligenz“ werden manchmal synonym verwendet, obwohl sich die beiden Begriffe auf leicht unterschiedliche Arten von Rechenfunktionen beziehen. Machine Learning ist jedoch eine Form der KI.
KI-Entwickler verwenden große Datenmengen, um ihre Modelle zu trainieren. Im Wesentlichen liefert der Trainingsdatensatz den Modellen Beispiele, und die Modelle lernen dann, anhand dieser Beispiele zu verallgemeinern. Je mehr Beispiele ein Datensatz enthält, desto verfeinerter und genauer wird das Modell – solange die Daten korrekt und relativ unvoreingenommen sind.
Durch Datenmanipulation werden die Trainingsdaten absichtlich verzerrt (Bias), wodurch der Ausgangspunkt für die Algorithmen des Modells geändert wird, sodass die Ergebnisse anders ausfallen, als von den Entwicklern ursprünglich beabsichtigt.
Stellen Sie sich vor, eine Lehrerin schreibt eine Mathematikaufgabe an eine Tafel, damit ihre Schüler sie lösen können: zum Beispiel „47 * (18 + 5) = ?“. Die Antwort lautet 1.081. Aber wenn eine Schülerin sich hinter sie schleicht und „47“ in „46“ ändert, dann lautet die Antwort nicht mehr 1.081, sondern 1.058. Data-Poisoning-Angriffe sind wie dieser hinterhältige Schüler: Wenn sich die Startdaten leicht ändern, ändert sich auch die Antwort.
Unbefugte Änderungen an Trainingsdaten können aus verschiedenen Quellen stammen.
Insider-Angriff: Jemand mit berechtigtem Zugriff auf die Trainingsdaten kann Verzerrungen (Bias), falsche Daten oder andere Änderungen einführen, die die Ergebnisse verfälschen. Diese Angriffe sind schwieriger zu erkennen und zu stoppen als Angriffe durch einen externen Dritten ohne autorisierten Zugriff auf die Daten.
Supply Chain-Angriff: Die meisten KI- und Machine-Learning-Modelle stützen sich zum Training ihrer Modelle auf Datensätze aus verschiedenen Quellen. Eine oder mehrere dieser Quellen könnten „manipulierte“ Daten enthalten, die sich auf jedes Modell auswirken, das diese Daten zum Training und zur Feinabstimmung von Modellen verwendet.
Unautorisierter Zugriff: Es gibt eine Reihe von Möglichkeiten, wie ein Angreifer Zugriff auf einen Trainingsdatensatz erhalten könnte, von lateraler Bewegung über eine vorherige Kompromittierung über den Erwerb der Zugangsdaten eines Entwicklers mithilfe von Phishing bis hin zu zahlreichen potenziellen Angriffen dazwischen.
Es gibt mehrere Möglichkeiten, wie ein Angreifer die Daten eines KI-Modells für seine Zwecke manipulieren kann. Einige der wichtigsten Techniken, die man kennen sollte, sind:
Datenvalidierung: Vor dem Training sollten Datensätze analysiert werden, um bösartige, verdächtige oder abweichende Daten zu identifizieren.
Prinzip der minimalen Rechtevergabe: Mit anderen Worten: Nur diejenigen Personen und Systeme sollten Zugang zu Trainingsdaten haben, die diese unbedingt benötigen. Das Prinzip der minimalen Rechtevergabe ist ein Grundpfeiler eines Zero Trust-Sicherheitsansatzes, der helfen kann, laterale Bewegung und die Kompromittierung von Zugangsdaten zu verhindern.
Verschiedene Datenquellen: Die Nutzung eines größeren Spektrums von Datenquellen kann dazu beitragen, die Auswirkungen von Verzerrungen in einem bestimmten Datensatz zu reduzieren.
Überwachung und Prüfung: Durch die Nachverfolgung und Aufzeichnung, wer Schulungsdaten geändert hat, was geändert wurde und wann es geändert wurde, können Entwickler und Entwicklerinnen verdächtige Muster erkennen oder die Aktivitäten eines Angreifers nach der Infizierung des Datensatzes zurückverfolgen.
Adversarial Training: Hierbei wird ein KI-Modell so trainiert, dass es absichtlich irreführende Eingaben erkennt.
Andere Maßnahmen für Anwendungsschutz wie Firewalls können auch auf KI-Modelle angewendet werden. Um Data Poisoning und andere Angriffe zu verhindern, bietet Cloudflare Firewall for AI an. Sie kann vor LLMs eingesetzt werden, um Missbrauch zu erkennen und zu blockieren, bevor er diese erreicht. Erfahren Sie mehr über Firewall for AI.