Chatbots, die wie natürliche Personen schreiben und sprechen, das Vorhersagen von Trends im Finanzwesen oder aber auch das Erzeugen von Kunst – die Fähigkeiten künstlicher Intelligenz sind vielfältig. Dass sich mit dieser Technologie jedoch nicht nur Probleme lösen lassen, sondern auch neue entstehen, wie z. B. das so genannte Halluzinieren von ChatGPT und Co., wird dabei zunehmend auch in der öffentlichen Berichtserstattung diskutiert.

In diesem Zusammenhang fordert auch der AI Act (wir berichteten), dass Anbieter von KI-Systemen im Rahmen der Konzeption und Entwicklung dafür sorgen müssen, dass die Systeme ein angemessenes Maß an Genauigkeit, Robustheit und Cybersicherheit erreichen. Dabei ist zu beachten, dass auch künstliche Intelligenzen – wie jedes System – Schwachstellen haben, die sowohl beabsichtigt als auch unbeabsichtigt ausgenutzt werden können. Um welche es sich dabei typischerweise handelt soll in diesem Beitrag – ganz ohne Deep Dive in die technischen und statistischen Hintergründe – aufgezeigt werden.

Workflow des maschinellen Lernens

Um die im Folgenden beschrieben Angriffsvektoren besser nachvollziehen zu können, soll jedoch zunächst erklärt werden, wie der Workflow des maschinellen Lernens im Allgemeinen erfolgt: Künstliche Intelligenzen (KI) lernen aus Daten und den darin enthaltenen Informationen. Je nach Aufgabenbereich der KI, können sie dabei unterschiedlicher Natur sein, wie zum Beispiel Bilder, Videos, oder Messwerte. Damit später zuverlässige Ergebnisse erzielt werden können, müssen für das Training der KI so viele Daten wie möglich bereitgestellt werden.

Die meisten Verfahren nutzen zwei Algorithmen, um bestimmte Aufgaben zu erlernen. Dabei handelt es sich um den Trainings- und den Interferenzalgorithmus. Im ersten Schritt wird die KI mittels des zuvor angelegten Datensets trainiert. Ziel ist es mit Hilfe des Trainingsalgorithmus ein Modell zu entwickeln, dessen Parameter immer weiter verbessert werden. Es beinhaltet die Ergebnisse des Trainingsprozesses und die Information darüber, wie diese anzuwenden sind. Das Modell bildet somit das erlernte Wissen. Anschließend wird der Interferenzalgorithmus mit dem Modell dafür genutzt, die gewonnenen Erkenntnisse auf beliebige Eingabedaten anzuwenden und um die gewünschten Ergebnisse zu liefern.

Die Ergebnisse resultieren also aus der Verarbeitung der Eingabedaten mit dem Interferenzalgorithmus. Dabei kann es sich um die Klassifizierung dieser Daten, nummerische oder auch binäre Werte handeln. Wie die Ergebnisse schlussendlich verwendet werden, hängt von der Anwendung ab.

Poisoning Attack

Wie bereits erwähnt hängt die Qualität und Zuverlässigkeit einer KI-Anwendung in erster Linie von der Qualität der Trainingsdaten ab. Es wird eine Datenbasis geschaffen, aus der letztendlich das Wissen für die KI generiert wird. Da sich Umstände über die Zeit jedoch auch ändern können, handelt es sich bei dieser Datenbasis selten um einen festen Pool an Informationen. Es müssen kontinuierlich neue Daten erhoben und in den Trainingsprozess integriert werden. Stammen diese aus unsicheren Quellen von Dritten, können sich Angreifer diesen Aspekt zu Nutze machen und schädliche Daten in das Training einschleusen. Die Folgen sind fehlerhafte, oder ungenaue Vorhersagen seitens der Anwendung.

Ein mögliches Beispiel für eine Poisoning Attack stellt die Erkennung von Spam dar. Die KI muss zuvor mit Beispielen trainiert werden, welche Spam enthalten. Spam-Mails werden jedoch von den Angreifern selbst erzeugt, was ihnen wiederum eine gewisse Kontrolle über die Trainingsdaten einräumt. Da es keinen großen Aufwand bedarf herauszufinden, welche Inhalte einer E-Mail als Spam und welche als kein Spam klassifiziert werden, kann dieser Umstand auf verschiedene Weise ausgenutzt werden. Angreifer könnten Spam so erstellen, dass zulässige Inhalte als unzulässige Mails assoziiert werden, welche demnach blockiert werden würden. Umgekehrt können so aber auch unzulässige Inhalte innerhalb zulässiger E-Mails versteckt werden, woraufhin die Spam-Mail nicht mehr vom Spam-Filter abgefangen werden kann.

Evasion Attack und adversarial examples

Im Gegensatz zur Poisoning Attack zielt eine Evasion Attack nicht auf die Trainingsdaten eines KI-Modells ab, sondern macht sich die Interaktion zwischen der KI-Anwendung und den Eingabedaten zunutze. Nichtsdestotrotz besteht auch hier das Ziel darin, das System durch Manipulation der Daten zu falschen, oder ungenauen Aussagen zu provozieren. Um dies zu erreichen, werden natürliche bzw. echte Eingaben als Grundlage verwendet und durch Hinzufügen von speziellen Störungen gezielt verändert. Bei diesen so manipulierten Eingabedaten spricht man auch von den sogenannten Adversarial Examples. Problematisch dabei ist, dass die Adversarial Examples möglicherweise gar nicht als solches erkannt werden. Beispielsweise werden bei der Bilderkennung die Störungen in mehrstufigen Verfahren, welche an den Trainingsprozess des KI-Systems erinnern, für jeden Bildpunkt berechnet und immer weiter angepasst, bis diese für das menschliche Auge kaum bzw. gar nicht mehr zu erkennen sind.

In der Regel benötigt eine Evasion Attack Zugriff auf die Eingabe-Ausgabe-Paare des Ziel-Modells, um zu testen welche Angriffsvektoren funktionieren. Sofern vorhanden kann der Angreifer dies über das Prediction-Interface der KI-Anwendung herausfinden. Oft steht diese Attacke allerdings auch in Zusammenhang mit einer Model Extraction Attack (s. folgenden Absatz), welche dazu genutzt wird, das KI-System nachzubilden und möglicherweise anhand dessen die Wirksamkeit der Adversarial Examples zu testen und weitere Angriffsmöglichkeiten herauszufinden.

Exploratory Attack

Zielten die vorangegangenen Angriffe in erster Linie auf die direkte Beeinflussung der KI-Systeme ab, steht für eine Exploratory Attack die KI selbst im Mittelpunkt. Oft können manipulative Angriffe nur dann erfolgreich durchgeführt werden, wenn Angreifer im Vorfeld Wissen über das System erlangen konnten. Aus diesem Grund versteht man unter Exploratory Angriffen alle Arten von Spionage bezüglich eines KI-Systems. Dabei kann es sich beispielsweise um das Erlangen von Trainingsdaten (Model Inversion Attack), oder aber auch um das KI-Modell (Model Extraction Attack) selbst handeln.

Beides kann zum Verlust von Wettbewerbsvorteilen führen und hohe finanzielle Einbußen nach sich ziehen. Sollten jedoch personenbezogene Daten für das Training der KI verwendet worden sein, kann es sich zudem zu einer Datenpanne mit zusätzlichen Konsequenzen ausweiten. Forschern ist es zum Beispiel gelungen über eine Model Inversion Attack bei einer KI für Bilderkennung die durchschnittliche Darstellung der jeweiligen Bild-Klasse zu erzeugen, was im Allgemeinen noch nicht auf einen expliziten Datensatz hinweist. Beschreibt die Klasse jedoch einen konkreten Sachverhalt, wie zum Beispiel eine einzelne Person, können so vermeintlich anonym geglaubte Daten aus einem KI-Modell extrahiert und folglich identifiziert werden.

Schwachstellen entgegenwirken

Um den oben genannten Angriffsmustern entgegenzuwirken, können bereits einfache Ansätze helfen die Angriffe zu verhindern oder mindestens zu erschweren. Betrachtet man den gesamten Workflow der KI, sollte man bereits am Anfang ansetzen. Denn bevor eine KI zum Einsatz kommt, benötigt sie Daten, um anhand derer zu lernen und im späteren Verlauf Aussagen treffen zu können. Damit diese Aussagen korrekt sind, ist es unabdingbar, dass die Trainingsdaten mit besonderer Sorgfalt ausgewählt werden. Dabei sollte sich immer die Frage gestellt werden, aus welchen Quellen diese stammen und welche Akteure Einfluss auf die Qualität nehmen könnten. Unsichere Quellen ebnen den Weg für einen Poisoning Angriff.

Bei Angriffsmethoden wie der Evasion oder Exploratory Attack haben sich für den Angreifer besonders die Ausgabewerte einer KI-Anwendung als nützlich erwiesen. Zusammen mit den Konfidenzwerten, also der Vorhersage-Wahrscheinlichkeit, und den zugehörigen Klassenbezeichnungen, reichen diese Informationen bereits aus, um modellspezifische Angriffe durchzuführen. Aus diesem Grund kann es nützlich sein, die Ausgabewerte zu runden, einzuschränken, oder zu entfernen. Ein weiterer Ansatz stellt die absichtliche Manipulation eines kleinen Anteils der Konfidenzwerte dar, um die Nachbildung von Modellen zu erschweren, oder aber auch bei der Nachbildung eines Modells eine Art Wasserzeichen zu erzeugen, damit die Möglichkeit besteht den Diebstahl hinterher nachzuweisen.

Sofern es der Anwendungszweck einer KI zulässt, bietet es sich außerdem an, die Anzahl der Anfragen an das KI-System eines Benutzers zu begrenzen. So kann das Sammeln von Eingabe-Ausgabe-Paaren eingeschränkt, oder zumindest zusätzlich erschwert werden. Ganz allgemein lässt sich in diesem Zusammenhang also sagen, dass nur so viele Informationen wie unbedingt nötig preisgegeben werden sollten.

Darüber hinaus existieren weitere Verfahren, wie beispielsweise das Adversarial Training oder die Input Transformation als auch der Einsatz von Tools, wie z. B. die Adversarial Robustness Toolbox (ART), die an dieser Stellte jedoch nur genannt und nicht weitere beschrieben werden sollen, da die Betrachtung im Detail den Rahmen dieses Blogbetrags sprengen wurde.

Fazit

Angriffsmethoden wie dem Poisoning, der Evasion, oder der Exploratory von KI-Modellen bieten eine Vielzahl von Manipulationsmöglichkeiten. Die Ziele der Angreifer sind dabei oft nicht nur monetärer Natur. Es können Daten gestohlen werden, welche in besonderen Fällen eine Gefährdung für die Privatsphäre darstellen. Darüber hinaus können Unternehmen ihren Wettbewerbsvorteil gegenüber der Konkurrenz verlieren, wenn KI-Modelle ausspioniert und dadurch nachgebildet werden können. Dies ist aber insofern problematisch, da Angreifer so die Gelegenheit bekommen, umfangreiches Wissen über die verwendete KI zu erlangen. Denn viele der Angriffsmethoden benötigen ein gewisses Vorwissen über das Angriffsziel, um erfolgreich angewandt zu werden.

Demgegenüber besteht natürlich auch die Möglichkeit KI-Systeme mittels gezielter Maßnahmen vor Angriffe zu schützen. Dabei sollte möglichst früh angesetzt werden und einfache Grundsätze wie „nur so viele Informationen wie nötig preisgeben“ als auch eine besondere Sorgfalt bei der Auswahl von Trainingsdaten befolgt werden.