Nachdem wir in der jüngsten Vergangenheit bereits mehrere Beiträge zum AI-Act der Europäischen Union und den Klassifizierungen von KI-Systemen beleuchtet haben, möchte ich heute einmal auf eine im Gegensatz zu dem m. E. in vielen Teilen völlig überhöhten Überbau dieses „typisch europäischen Gesetzes“ schon ganz konkrete Auswirkung des AI-Acts auf den „App-Alltag“ eingehen.

Die Idee dazu kam wieder einmal über einen interessanten Artikel in der FAZ über den neuen, sog. erweiterten Sprachmodus (advanced voice mode) von ChatGPT.  Diese Aktualisierung beinhaltet nunmehr diverse Stimmen, die sich in ihrer Tonlage, Emotionalität und weiteren Merkmalen unterscheiden; sie nennen sich Arbor, Maple, Sol, Spruce und Vale. Open AI hat diese (bewusst) nicht in der EU, Großbritannien, der Schweiz, Island Norwegen und Liechtenstein eingeführt. Offensichtlich besteht seitens des KI Anbieters die Befürchtung, dass diese Stimmen als hochriskante KI Systeme im Sinne des Art. 6 des europäischen AI-Acts gelten, und damit seitens des Anbieters diverse rechtliche Anforderungen berücksichtigt werden müssten.

Aber: Stimmen? Warum sollten Stimmen, die durch ein large language model verwendet werden, „hochriskant” im Sinne des AI-Acts sein? Ausschlaggebend hierbei sind allerdings nicht die „Stimmen“, mit denen das System natürlich wirkende Konversationen mit dem Nutzer führen kann, sondern die hiermit (untrennbar) verbundene Emotions-Erkennung. Emotions-Erkennung, und zwar auf non-verbaler Ebene, bei der nicht der Inhalt des Gesprochenen relevant ist, sondern die Charakteristik der gesprochenen Worte bzw. Sätze, also die Tonlage, Geschwindigkeit, Lautstärke und weiterer Merkmale des Gesprochenen.

Die Erkennung von Emotionen sollen die neuen Stimmen, jedenfalls wenn man den mittlerweile hierzu schon erschienenen YouTube-Videos glaubt, tatsächlich schon überraschend gut können. Aber, glauben und youtuben ist eine Sache – selbst testen eine andere. Also, über VPN den neuen advanced voice mode gleich mal selbst ausprobiert (Hinweis: Ein paar Tage nach Erstellen dieses Beitrags scheint der Advanced Voice Mode auch ohne VPN zu funktionieren, es wäre allerdings bisher noch Spekulation, hieraus auf eine generelle Freigabe durch OpenAI zu schließen.). Spoiler-Alarm: Mann, funktioniert das (erschreckend?) gut. Tatsächlich „hört“ die App in der Konversation mit der gewählten Stimme grob, in welcher „Stimmung“ der Nutzer zu sein scheint, jedenfalls lassen sich im Selbstversuch zumindest drei „Grundstimmungen“ simulieren, nämlich positiv/euphorisch, traurig/enttäuscht und auch verärgert. Ob die weiteren möglichen Stimmungslagen (deprimiert, angeekelt etc.) auch erkannt werden, konnte ich mangels eigener Fähigkeit, diese zu simulieren, nicht testen. Apropos simulieren: Auf meine suggestive Frage an die KI, ob die Emotionserkennung umso schwieriger sei, wenn diese Stimmungen nur simuliert werden, erhielt ich ein klares Ja. Und auch dazu die Erläuterung, ungefragt, tatsächlich wie in einer „richtigen“ Kommunikation, dass auch von der KI nicht erkennbare Merkmale wie Gesichtsausdrücke, Haltung die Erkennung der richtigen Emotion erleichtern – bzw. das Fehlen dieser die Erkennung erschweren. Und den Hinweis der KI – auch ungefragt – dass ich diesen Aspekt doch in meinen Beitrag einbauen könne. Wie hieß der Ausdruck des Erstaunens noch bei Asterix? Uff.

„Ja, keine schlechte Idee, GPT“.

Nach Art. 6 Abs. 2 AI-Act i.V.m. Annex III Ziff. 1 c) sind KI-Systeme hochriskant, wenn sie (u. a.) dazu bestimmt („intended“) sind, Emotionen zu erkennen. Nach Erwägungsgrund 18, der den gesetzgeberischen Zweck hierzu beschreibt, heißt es dazu:

ein KI-System, das dazu dient, Emotionen oder Absichten natürlicher Personen auf der Grundlage ihrer biometrischen Daten zu erkennen oder abzuleiten. Der Begriff bezieht sich auf Emotionen oder Absichten wie Glück, Traurigkeit, Ärger, Überraschung, Ekel, Verlegenheit, Aufregung, Scham, Verachtung, Zufriedenheit und Belustigung. Nicht dazu gehören körperliche Zustände wie Schmerzen oder Müdigkeit, wie z. B. Systeme zur Erkennung des Ermüdungszustands von Berufspiloten oder Kraftfahrern, um Unfälle zu vermeiden. Auch die bloße Erkennung von leicht erkennbaren Ausdrücken, Gesten oder Bewegungen gehört nicht dazu, es sei denn, sie dienen der Erkennung oder Ableitung von Emotionen.

Na gut, das definiert „emotion detection“ zwar etwas genauer – sagt aber nichts dazu aus, warum das im Sinne des Gesetzgebers “hochriskant” ist. Vielleicht lässt sich aus den für hochriskante Systeme erforderlichen rechtlichen Folgen etwas ableiten:

Gem. Art. 26 AI-Act müssen Anbieter hochriskanter Systeme zusätzlich zu den in Art. 4 und 5 genannten „Grundpflichten“ ergänzend (zusammengefasst):

  • geeignete technisch-organisatorische Maßnahmen umsetzen;
  • durch menschliche Aufsicht überwacht werden;
  • nicht zweckfremd genutzt werden.
  • automatisch erzeugte Protokolle für mindestens 6 Monate vorhalten,

Eine Menge „Bürokratie“, aus Sicht der Anbieter bzw. Entwickler. Und sicherlich auch, gemeinsam mit den sonstigen Pflichten aus dem AI-Act, dazu geeignet, um Europa zunächst einmal einen Bogen zu machen. Überdrehen wir hier wieder?

In der Abwägung zwischen Nutzen und Risko sage ich hier man ganz subjektiv: Ja.

Denn, mal ketzerisch gefragt: Was genau ist das Gefährliche daran? Kann die KI auf diese Weise manipulativ genutzt werden? Soweit der bzw. die andere nicht weiß, dass auf der anderen Seite eine KI am Werke ist – ohne Frage! Dieses Risiko kann allerdings durch die zwingende Transparenzpflicht weitestgehend ausgeschaltet werden. Kann sie mich selbst mittels Emotions-Erkennung manipulieren? Ich sage mal mutig: eher nein, denn dies setzte eine zuvor implementierte Absicht voraus. Das ist eher abwegig.

Daher die Frage: worauf zielt die Emotions-Erkennung in diesem konkreten Fall ab? Ich denke, die Antwort liegt auf der Hand, nämlich die Kommunikation mit dem Nutzer besser, „menschlicher“ zu machen. Ist das gefährlich, oder „hochriskant“? Ich denke nein. Zumindest noch nicht. Natürlich verleitet die immer natürlicher wirkende Kommunikation, die durch diese Fähigkeit des Systems ermöglicht wird, eine „Vermenschlichung“ im Umgang mit KI. Zu der Annahme, auf der anderen Seite spräche tatsächlich „jemand“ der einen versteht. Das, denke ich, ist aber momentan das einzige „Risiko“ dieser Funktion. Und beinhaltet auch gleichzeitig die teilweise wirklich unglaublichen, fantastischen Möglichkeiten (der aufmerksame Leser erkennt fraglos eine gewissen Euphorie hier, auch ohne Stimmerkennung): Ja, es ist faszinierend, mit der Maschine sinnvolle Dialoge zu führen, ohne sich von (lange überlegtem) Prompt zu Prompt hangeln zu müssen. Und ja natürlich, kommt dabei auch nicht immer Sinnvolles zustande. Aber eben doch mittlerweile häufig.

Fazit

Ein echtes Fazit hat dieser Beitrag nicht. Als Datenschützer ist man ja beruflich immer kritisch. Man sieht häufig Risiken, wo andere diese nicht sehen. Ab und an auch zu viele. Die Sinnhaftigkeit des AI-Acts möchte ich hier auch nicht anzweifeln, diverse Punkte daran sind gut und richtig. Einige aber auch überzogen. Der Einsatz von KI in Waffensystemen wird überhaupt nicht geregelt, dafür aber Bauteile in Sportbooten und Wassermotorrädern, um mal ein besonders plakatives Beispiel zu nennen. Es wäre schade, wenn sinnvolle Entwicklungen aufgrund von zweifelhaft sinnvollen Vorgaben, erst deutlich später oder gar nicht nach Europa kommen, ich denke hier auch (aufgrund anderer Beweggründe) an die AI von Apple. Letztlich kann es sich natürlich kein großer Anbieter leisten, Europa zu umgehen. Aber im Ergebnis sind wir, wie bei vielen Entwicklungen, mindestens zeitlich wieder mal weit zurück.