AI-Blog über gegnerische Bedrohungen

Wichtige Erkenntnisse aus den neuen Leitlinien des NIST zu gegnerischen KI-Bedrohungen

In der künstlichen Intelligenz (KI) gibt es ein Konzept namens „Alignment“, das sicherstellt, dass ein KI-System stets den Absichten und Werten des Menschen folgt. Aber was passiert, wenn jemand ein KI-System kompromittiert, um etwas zu tun, was seine Schöpfer nicht wollten?

Beispiele für diese Bedrohung, die als gegnerische KI bezeichnet wird, reichen vom Tragen von Make-up, das Gesichtserkennungssysteme absichtlich täuscht, bis hin zur Täuschung autonomer Autos, sodass diese über die Straße abbiegen. Es handelt sich um einen potenziellen Risikobereich für Entwickler von KI-Systemen und deren Nutzer, doch ein Großteil der diesbezüglichen Forschung ist noch akademisch.

Im Januar veröffentlichte das US-amerikanische National Institute of Standards and Technology (NIST) ein Dokument, in dem versucht wurde, diese Forschung zu konkretisieren. Es war ein langes Projekt. Der erste Entwurf von Gegnerisches maschinelles Lernen: Eine Taxonomie und Terminologie von Angriffen und Schadensbegrenzungen erschien im Jahr 2019. Diese neueste Version ist die letzte und könnte ein wichtiges Grundlagendokument für KI-Entwickler sein, die Abhilfemaßnahmen in ihre Produkte integrieren möchten.

Vier Arten von Angriffen

Die Taxonomie unterteilt gegnerische KI-Angriffe in mehrere Kategorien:

1) Missbrauchsangriffe

Dies geschieht, bevor das Modelltraining überhaupt beginnt, indem Daten manipuliert werden, bevor sie erfasst werden. Dadurch werden dem Modell falsche oder manipulative Daten zugeführt, die seine Ergebnisse beeinflussen sollen. Im Gegensatz zu den anderen ist diese Angriffsform einzigartig für generative KI-Systeme (GenAI).

Im Kampf um geistiges Eigentum bei GenAI haben wir dafür bereits einige innovative Beispiele gesehen. Nachtschatten, ein Projekt von Forschern der Chicago University, ist ein Tool, mit dem Künstler und Illustratoren ihre Arbeiten online subtil verändern können, ohne das visuelle Erlebnis für die Zuschauer zu verändern.

Die Änderungen von Nightshade führen dazu, dass GenAI-Trainingsmodelle die darin enthaltenen Objekte falsch interpretieren (z. B. könnte eine Kuh als Toaster betrachtet werden). Dies verwirrt GenAI-Modelle, die auf diese Trainingsdaten angewiesen sind, um „neue“ Kunstwerke zu erstellen. Nightshade begegnet dem, was das Team als unbefugten Datendiebstahl zu Schulungszwecken ansieht, indem es ihn für GenAI-Unternehmen wirtschaftlich problematisch macht.

2) Vergiftungsanfälle

Diese befassen sich auch mit dem KI-Trainingsprozess, allerdings auf eine Weise, die absichtlich bereits gesammelte Daten verfälscht, um das endgültige Trainingsmodell zu verfälschen. Wir könnten uns vorstellen, dass jemand visuelle Daten hackt, die zum Trainieren autonomer Fahrzeuge verwendet werden, und Bilder von Stoppschildern ändert oder fälschlicherweise markiert, um sie in grüne Ampeln umzuwandeln.

3) Ausweichangriffe

Auch wenn ein KI-Modell genau auf die richtigen Daten trainiert wird, können Angreifer das KI-System nach seiner Bereitstellung immer noch ins Visier nehmen. Ein Ausweichangriff zielt auf seinen Inferenzprozess – den Vorgang der Analyse neuer Daten mithilfe des trainierten Modells – ab, indem er neue Daten manipuliert, die das KI-Modell interpretieren soll. In unserem Beispiel für autonomes Fahren könnte jemand Markierungen an Stoppschildern auf der Straße anbringen, die verhindern, dass ein Fahrzeug ihn erkennt, und ihn zum Weiterfahren auffordern.

4) Angriffe auf die Privatsphäre

Bei einigen Angriffen geht es eher darum, Daten zu sammeln, als die Interpretation dieser Daten durch das Modell zu verfälschen. Ein Datenschutzangriff würde ein KI-Modell während der Inferenzphase abfragen, um vertrauliche Informationen aus seinen Trainingsdaten zu gewinnen. Forscher haben es bereits getan Wege gefunden um die GPT-3.5 Turbo- und GPT4-Modelle von OpenAI dazu zu überreden, die E-Mail-Adressen anderer Benutzer preiszugeben.

So entschärfen Sie diese Angriffe

Das NIST-Dokument bietet technische Abhilfemaßnahmen, um diesen Missbrauch von KI zu bekämpfen. Dazu gehört das gegnerische Training, bei dem Datenwissenschaftler Datenelemente in den Trainingssatz einfügen, die Umgehungsangriffe vereiteln. Allerdings gibt es bei diesen typischerweise Kompromisse in Bereichen wie der Genauigkeit des Trainingsmodells, räumt das Dokument ein und beschreibt Lösungen für diese Kompromisse als „eine offene Frage“.

Die nicht schlüssigen Abhilfemaßnahmen festigen die Position dieses Dokuments als Überblick über die wissenschaftliche Arbeit über gegnerische KI und deren Destillation in eine detaillierte Taxonomie, die Menschen nutzen können, um sicherzustellen, dass sie dasselbe beschreiben, wenn sie über diese Probleme sprechen. Es ist kein Leitfaden für Praktiker, um der gegnerischen KI-Bedrohung zu begegnen, warnt Nathan VanHoudnos, leitender Forschungswissenschaftler für maschinelles Lernen und Laborleiter in der CERT-Abteilung des Software Engineering Institute an der Carnegie Mellon University.

Einen breiteren Kontext schaffen

„Ich denke, dass jetzt, da sie sich die harte Arbeit geleistet haben, eine Taxonomie zusammenzustellen, Raum für einen stärker auf Praktiker ausgerichteten Leitfaden wäre“, sagt er gegenüber ISMS.online. „Die Dinge, die ich in einem solchen Leitfaden sehen möchte, wären nicht nur die Berücksichtigung der Ebene des maschinellen Lernens, sondern des gesamten Stapels eines KI-Systems.“

Dieser Stack geht über die Datenschicht hinaus und reicht von der zugrunde liegenden GPU-Hardware über die Cloud-Umgebungen, in denen er betrieben wird, bis hin zu den in KI-Systemen verwendeten Authentifizierungsmechanismen, erklärt er.

NIST hat bereits wichtige Schritte unternommen, um denjenigen, die KI implementieren, mit praktischeren Ratschlägen zu helfen. Das Institut, das im März 2023 sein Trustworthy and Responsible AI Resource Center eingerichtet hat, veröffentlichte eine KI-Risikomanagement-Framework im Januar 2023 zusammen mit einem Playbook, das dabei helfen soll, das gesamte Spektrum individueller, organisatorischer und sozialer Risiken durch KI zu bewältigen.

Anfang Februar 2024 gab das NIST eine RFI heraus, um Hilfe bei der Erfüllung seiner Pflichten gemäß der Executive Order des Weißen Hauses vom Oktober 2023 zur sicheren, geschützten und vertrauenswürdigen Entwicklung und Nutzung künstlicher Intelligenz zu erhalten. Dazu gehört die Entwicklung von KI-Prüfungsfunktionen und Richtlinien für KI-Red-Teaming.

Obwohl die Informationen des NIST über gegnerische KI bisher eher akademischer Natur sind, weist VanHoudnos auf andere ergänzende Ressourcen hin. MITRE hat seine Gegnerische Bedrohungslandschaft für Systeme der künstlichen Intelligenz (Atlas) Initiative, die reale Techniken in verschiedenen Phasen der gegnerischen KI-Angriffskette sammelt, von der Aufklärung bis zum Angriff.

Das AI Risk and Vulnerability Alliance, ein Open-Source-Angriff von KI-Forschern, verfügt außerdem über eine Taxonomie von KI-Schwachstellen sowie eine Datenbank spezifischer Angriffstypen, die mit dieser Taxonomie verknüpft sind (z. B. AVID-2023-V005: Camera Hijack Attack on Facial Recognition System). Ein wesentlicher Unterschied zwischen der AVID-Taxonomie und der NIST-Taxonomie besteht darin, dass sie technische Schwachstellen formal Risiken höherer Ordnung in Bereichen wie Sicherheit (z. B. Informationslecks), Ethik (z. B. Fehlinformationen) und Leistung (z. B. Datenprobleme oder Auswirkungen auf den Datenschutz) zuordnet.

VanHoudnos schlägt vor, die gegnerischen Herausforderungen mit diesen Risiken höherer Ordnung zu verknüpfen. Schließlich sind die gesellschaftlichen Auswirkungen eines KI-Versagens – ob absichtlich oder unbeabsichtigt – enorm.

„Das größte Risiko [von KI-Systemen] ist der unbeabsichtigte Schaden, den sie anrichten“, erklärt VanHoudnos. Das könnte reichen von versehentlich gelogen an die Kunden bis hin zu Menschen zu Unrecht des Steuerbetrugs beschuldigen und eine Regierung fällen oder eine Person dazu überreden, sich umzubringen.

In diesem Zusammenhang erwähnt er auch das Center for Security and Emerging Technology, das in seinem Bericht versucht hat, diese Schäden zu kategorisieren und zu formalisieren Dem KI-Schaden Struktur verleihen.

Es gibt noch mehr Arbeit zu tun

Das NIST-Dokument ist eine umfassende Übersicht über Begriffe und Techniken auf diesem Gebiet, die als nützliche Ergänzung zu Arbeiten dienen wird, die bereits die Risiken und Schwachstellen gegnerischer KI in diesem Bereich dokumentieren. VanHoudnos befürchtet jedoch, dass wir noch viel Arbeit vor uns haben, um diese Risiken aus der Sicht eines Praktikers zu bewältigen.

„Erst im letzten Sommer haben die Menschen begonnen, die Idee, dass KI-Sicherheit Cybersicherheit ist, wirklich ernst zu nehmen“, schließt er. „Es dauerte eine Weile, bis ihnen klar wurde, dass KI nur eine Anwendung ist, die auf Computern läuft, die mit Netzwerken verbunden sind, und dass es sich also um das Problem des CISO handelt.“

Er ist davon überzeugt, dass die Branche noch immer nicht über einen robusten Verfahrensrahmen zur Umsetzung gegnerischer Gegenmaßnahmen verfügt. Gemeinsam behaupten sich CMU und SEI AI Security Incident Response Team (ASIRT), eine Initiative, die sich an nationale Sicherheitsorganisationen und die Verteidigungsindustrie richtet und sich auf die Erforschung und Entwicklung formaler Ansätze zur Sicherung von KI-Systemen gegen Gegner konzentriert.

Diese Art von Bemühungen kann nicht früh genug erfolgen, insbesondere angesichts der Behauptung des NIST, dass „bislang keine narrensichere Methode existiert, um die KI vor Fehlleitungen zu schützen“. Wieder einmal werden wir wahrscheinlich in einen endlosen Kampf mit Gegnern geraten, wenn es darum geht, unsere KI-Systeme vor Subversion zu schützen. Je früher wir ernsthaft beginnen, desto besser.

ISMS.online unterstützt jetzt ISO 42001 – das weltweit erste KI-Managementsystem. Klicken Sie hier, um mehr zu erfahren