Der Landesbeauftragte für den Datenschutz (LfD) Niedersachsen hat sich in seinem Tätigkeitsbericht für das Jahr 2023 zusammen mit anderen Aufsichtsbehörden mit ChatGPT beschäftigt und eine datenschutzrechtliche Bewertung des Chatbots vorgenommen (vgl. LfD Niedersachsen, Tätigkeitsbericht 2023, S. 52 ff.).

Bei ChatGPT handelt es sich um einen auf einem Large Language Model (KI-Sprachmodell) basierenden Chatbot. Über eine Eingabemaske können Nutzer*innen mit ChatGPT kommunizieren. ChatGPT generiert anhand der eingegebenen Informationen dann Texte, Softwarecode oder auch Fotos und Bilder.

Aus datenschutzrechtlicher Perspektive sind bei diesem Prozess unterschiedliche Phasen der Verarbeitung zu differenzieren:

Das Training von ChatGPT

Schon für das Training für des Large Language Modell von ChatGPT sind – bevor die Öffentlichkeit den Chatbot überhaupt nutzen konnte – in großem Umfang personenbezogene Daten verarbeitet worden. Dies umfasst auch besonders sensible personenbezogene Daten. Laut Angaben von OpenAI, dem Betreiber von ChatGPT, werden als Trainingsdaten unter anderem öffentlich zugängliche Informationen aus dem Internet verwendet. Die Aufsichtsbehörde kritisiert, dass dabei keine genaueren Details bekanntgegeben werden. Durch den Einsatz von Filtertechniken, beispielsweise durch Ausschluss von Webseiten, die gezielt Daten über Personen sammeln, kann der Umfang von personenbezogenen Trainingsdaten aus dem Internet zwar reduziert werden, dennoch wird noch immer eine große Menge von personenbezogenen Daten verarbeitet.

Als einzig mögliche Rechtsgrundlage für die Verarbeitung der Trainingsdaten sieht die Aufsichtsbehörde Art. 6 Abs. 1 lit. f DSGVO an. Auch der Anwendung dieser Rechtsgrundlage stehen allerdings einige Aspekte entgegen:

 

  • Grundsatz der Zweckbindung: Die Veröffentlichung von Daten im Internet führt nicht automatisch dazu, dass die personenbezogenen Daten auch zu jedem beliebigen Zweck verarbeitet werden dürfen. Dies widerspräche dem datenschutzrechtlichen Grundsatz der Zweckbindung.
  • Grundsatz der Datensparsamkeit: Auch der Grundsatz der Datensparsamkeit kann durch ein Large Language Modell kaum eingehalten werden, da die Qualität dessen gerade durch die Anzahl der Parameter bestimmt wird.
  • Grundsatz der Richtigkeit: Eine Richtigkeit der Daten kann aufgrund mangelnder Kontrollmechanismen nicht gewährleistet werden.
  • Verlust der Kontrolle: Sobald Daten im Internet veröffentlicht sind, entziehen sich diese der Kontrolle der betroffenen Person. Dies zeigt gerade auch die mögliche Verwendung der Daten für das Training von ChatGPT.
  • Besonders sensible Daten nach Art. 9 Abs. 1 DSGVO: In Bezug auf die besonders sensiblen Daten nach Art. 9 Abs. 1 DSGVO (z.B. Gesundheitsdaten oder politische Meinungen) müssen zusätzlich die Anforderungen nach Art. 9 Abs. 2 DSGVO eingehalten werden. Eine Verarbeitung aufgrund eines berechtigten Interesses ist dabei nicht möglich. Dementsprechend müsste in diesem Rahmen zusätzlich eine weitere Rechtsgrundlage greifen. In Betracht käme hierbei beispielsweise eine Einwilligung. Es ist allerdings häufig bereits nicht nachvollziehbar, ob die Veröffentlichung im Internet überhaupt mit Einwilligung der betroffenen Person erfolgte. Noch weniger nachvollziehbar wird daher die Einwilligung der betroffenen Person im Rahmen der Verwendung für Trainingszwecke. Es ist demnach davon auszugehen, dass eine Einwilligung als Option ausscheidet. Auch eine andere mögliche Rechtsgrundlage ist nicht ersichtlich.

Entsprechend dieser Kritikpunkte weist der LfD Niedersachsen darauf hin, dass OpenAI bisher nicht nachweisen kann, dass ein Training von ChatGPT datenschutzkonform erfolgt. Dies schränkt auch die Möglichkeiten einer datenschutzkonformen Nutzung ein.

Ein- und Ausgabe von personenbezogenen Daten bei der Nutzung von ChatGPT

Sofern Daten in das Eingabefeld bei ChatGPT eingegeben werden, muss diese Eingabe auf eine Rechtsgrundlage gestützt werden. Auch ist zu berücksichtigen, dass diese Eingabe darüber hinaus auch eine Weiterverwendung der Daten zu Trainingszwecken seitens OpenAI beinhalten kann. Dies muss entweder ebenfalls von der Rechtsgrundlage gestützt sein oder die Weiterverwendung muss unterbunden werden. In vielen Fällen wird es allerdings schon an der Rechtsgrundlage für die Eingabe scheitern.

In Bezug auf die Daten, die seitens ChatGPT ausgegeben werden, ist auch zu beachten, dass keine Richtigkeit der Daten seitens OpenAI garantiert wird. Stattdessen weist OpenAI selbst darauf hin, dass ChatGPT auch falsche Informationen geben kann.

Aufgrund dieser Umstände wird die Verarbeitung personenbezogener Daten in ChatGPT daher in vielen Fällen datenschutzrechtlich unzulässig sein.

Erfüllung von Betroffenenrechten

Sofern personenbezogene Daten verarbeitet werden, muss auch die Einhaltung von Betroffenenrechten gewährleistet werden können. Large Language Models können aufgrund ihrer Architektur die Rechte auf Korrektur oder Löschung allerdings nur sehr eingeschränkt gewährleisten. Insbesondere in Bezug auf die Daten, die ChatGPT für die Nutzer*innen generiert, ist dies als problematisch zu bewerten. Detaillierter geht der LfD Niedersachsen erstmal nicht auf diese Thematik ein, sondern verweist auf weitere zukünftige Prüfungen.

Fazit

Es zeigt sich, dass die niedersächsische Aufsichtsbehörde ChatGPT nicht als unproblematisch ansieht und dem Dienst durchaus kritisch gegenübersteht. Um die Nutzung von ChatGPT so rechtskonform wie möglich zu gestalten, empfehlen wir daher beim Einsatz von ChatGPT beispielsweise die Checkliste des Hamburgischen Beauftragten für Datenschutz und Informationsfreiheit (wir berichteten) zu beachten und sich an der Orientierungshilfe „Künstliche Intelligenz und Datenschutz“ der DSK (wir berichteten) zu orientieren.

Die Thematik ist für die Aufsichtsbehörden insgesamt allerdings noch nicht abgeschlossen, es empfiehlt sich also die weiteren Entwicklungen zu beachten. Auch der LfD Niedersachsen hat mit dieser ersten Beurteilung noch keine abschließende Bewertung vorgenommen.