Künstliche Intelligenz (KI) gilt als Schlüsseltechnologie der Zukunft – so unterstützen bereits heute zahlreiche KI-Technologien den Menschen in den unterschiedlichsten Bereichen, wie etwa der Medizin, im Auto, der Landwirtschaft oder bei alltäglichen Bedürfnissen im Haushalt. Entscheidender Treiber für den Erfolg von KI-Systemen ist jedoch nicht – wie oftmals angenommen – der Algorithmus bzw. das KI-Modell allein, sondern die Verfügbarkeit von Daten in hoher Qualität und Menge. Sprechen wir etwa von Bildern, handelt es sich nicht nur um mehrere tausend, die jeder auf seinem Computer speichern könnte, sondern mitunter um mehrere Millionen oder gar Milliarden Bilder – „Big Data“ trifft das doch schon ganz gut. So äußerte Peter Norvig, Director of Research bei Google, bereits 2011 „Wir haben keine besseren Algorithmen als alle anderen, wir haben nur mehr Daten.“
Doch was bedeutet „Big Data“ konkret?
Big Data bezeichnet in erster Linie eine Anhäufung immenser Datenmengen, wobei zumeist auch die damit einhergehende Analyse assoziiert wird. Das primäre Ziel von Big Data ist, so viele Daten wie möglich zu sammeln, um ein möglichst umfassendes und realitätsgetreues Analyse-Ergebnis zu erzielen. Hierfür werden nicht selten auf unterschiedliche Quellen wie etwa soziale Medien, mobilen Endgeräten oder auch (Internet of Things-) Sensoren zurückgegriffen. Dies führt für gewöhnlich dazu, dass mehr Daten als notwendig erfasst werden. Das zeigt sich vor allen in den sogenannten Metadaten, die zu den eigentlichen Daten erfasst werden und meist Dinge beinhalten wie Uhrzeit, Daten, Ort (GPS), aber auch Geschlecht, Alter oder Namen.
Steht dieser Ansatz nicht im Widerspruch zum „Datenminimierungsgrundsatz“ im Sinne der DSGVO?
Der Grundsatz der Datenminimierung ist in Art. 5 Abs. 1 lit. c DSGVO legal definiert und verlangt, dass personenbezogene Daten dem Zweck angemessen und erheblich sowie auf das für die Zwecke der Verarbeitung notwendige Maß beschränkt sind.
Da eine trennscharfe Definition der drei Merkmale kaum möglich ist, werden diese in der Praxis regelmäßig unter dem Begriff der Erforderlichkeit zusammengefasst, d.h. es dürfen nur solche personenbezogenen Daten erhoben und verarbeitet werden, ohne die der festgelegte Zweck nicht erreicht werden kann. Daten, die möglicherweise zur Erreichung des Zwecks beitragen oder für zukünftige Zwecke benötigt werden, sind hiervon ausgenommen. Dies verdeutlicht der Bezug auf Art. 5 Abs. 1 lit. b DSGVO, wonach eine umfangreiche Speicherung (auf „Vorrat“) bei Fehlen eines konkreten Zwecks unzulässig ist.
Mit Blick auf den Gesetzeswortlaut fällt auf, dass der Datenminimierungsgrundsatz demnach nicht darauf ausgerichtet ist, die Summe der zu verarbeitenden personenbezogenen Daten möglichst stark zu reduzieren. Stattdessen grenzt der Datenminimierungsgrundsatz lediglich die Tiefe des Grundrechtseingriffs (vgl. hierzu Roßnagel, in: Simitis/Hornung/Spiecker gen. Döhmann, 1. Aufl. (2019) Art. 5 Rn.116) auf die tatsächlich erforderlichen Daten abhängig vom verfolgten Zweck ein, sofern keine andere zumutbare Methode zur Erreichung des angestrebten Zwecks mit geringerer Eingriffsintensität zur Verfügung steht.
Was bedeutet das für die Praxis?
Um die Frage zu klären, ob und wie Big Data ins Bild des datenschutzrechtlichen Datenminimierungsgrundsatzes passt, ist zunächst darauf hinzuweisen, dass die DSGVO den Grundsatz als grundlegendes Prinzip für die Verarbeitung personenbezogener Daten versteht. Aus diesem Grund sollten insbesondere Unternehmen sicherstellen, dass nur solche Daten gesammelt werden, die für den jeweiligen Zweck tatsächlich erforderlich sind. Ein Verstoß gegen den Grundsatz kann nach Art. 83 Abs. 5 lit. a DSGVO Geldbußen von bis zu 20 000 000 EUR oder im Fall eines Unternehmens von bis zu 4 % seines gesamten weltweit erzielten Jahresumsatzes des vorangegangenen Geschäftsjahrs zur Folge haben, je nachdem, welcher der Beträge höher ist. Um dieses Risiko zu minimieren, ist eine sorgfältige Planung sowie Konkretisierung des Zwecks erforderlich.
Vor diesem Hintergrund steht insbesondere der „Privacy by Design“-Gedanke, wonach der Verantwortliche die Datenverarbeitung so gestalten sollte, dass der Datenschutz von Anfang an durch geeignete technische und organisatorische Maßnahmen (sog. TOMs) optimal geplant ist.
Praktische Umsetzungsmöglichkeiten
Als mögliche geeignete Maßnahme nennt die Verordnung in Art. 25 Abs. 1 DSGVO Pseudonymisierung. Unter Pseudonymisierung wird nach Art. 4 Nr. 5 DSGVO die Verarbeitung personenbezogener Daten in einer Weise verstanden, dass die personenbezogenen Daten ohne Hinzuziehung zusätzlicher Informationen nicht mehr einer spezifischen betroffenen Person zugeordnet werden können, sofern diese zusätzlichen Informationen gesondert aufbewahrt werden. Dadurch können Big-Data-Analysen durchgeführt werden, ohne direkten Zugriff auf identifizierbare Informationen zu haben. Es besteht jedoch stets die Möglichkeit, pseudonyme Daten bestimmten Personen zuzuordnen, weshalb Pseudonymisierung lediglich als eine präventive Maßnahme anzusehen ist, aber nicht als Allround-Lösung.
Alternativ erwähnt der Verordnungsgeber in ErwGr. 26 S. 5 DSGVO, dass die Grundsätze des Datenschutzes nicht für anonyme Informationen gelten, die sich von vornherein nicht auf eine natürliche Person beziehen, oder personenbezogene Daten, die nachträglich in einer Weise anonymisiert worden sind, dass die betroffene Person nicht oder nicht mehr identifiziert werden kann.
Liegen anonyme bzw. anonymisierte Daten vor, besteht grundsätzlich kein datenschutzrechtliches Risiko für die „Betroffenen“. Zurückzuführen ist dies auf die Unanwendbarkeit der DSGVO, weshalb Anonymisierung in der Praxis eine wichtige Rolle bei der Verarbeitung großer Datenmengen einnimmt. Bedenklich ist jedoch die Gefahr einer jederzeitigen Re-Identifizierung. Besonders in Anbetracht der stetig fortschreitenden Möglichkeiten – durch technische Verfahren und Weiterentwicklungen – besteht keine Garantie, dass anonyme Datensätze fortwährend als anonym einzustufen sind. Um eine dauerhafte Anonymisierung der Daten zu gewährleisten, sollte der Verantwortliche die Überprüfung und Aufrechterhaltung der Anonymisierung als eine fortwährende Verpflichtung ansehen (so auch der Art-29-Datenschutzgruppe).
Um die potentielle Gefahr einer Re-Identifizierung zu vermeiden, wird die Synthetisierung häufig als neue Anonymisierungstechnik genannt. Bei synthetischen Daten handelt es sich um anonymisierte Daten, die aus sehr großen Datensätzen „künstlich“ erzeugt werden. Als Basis dienen aber auch hier reale Daten, die wiederum der DSGVO unterliegen. Einzig rein synthetische generierte Daten, die keinen Datenschutz relevante Daten beinhalten, fallen nicht unter den Anwendungsbereich der DSGVO. Im Ergebnis sollen, die Daten dieselben statistischen und strukturellen Eigenschaften wie die Originaldaten aufweisen, um repräsentative Aussagen zu ermöglichen. Folglich wird auch hier auf einen realen Personenbezug verzichtet, sodass die datenschutzrechtlichen Herausforderungen umgangen werden können. Allerdings stellen sich auch hier zahlreiche Fragen, u.a. ob eine Re-Identifizierung möglich ist oder ob synthetische Daten reale Daten ersetzen können.
Auch wenn Anonymisierung mangels Personenbezug als perfekte Lösung für die Verarbeitung großer Datenmengen zu sein scheint, kann nicht außer Acht gelassen werden, dass es in der digitalen Welt schwierig ist, eine Anonymität ohne jeglichen Personenbezug während der gesamten Verarbeitung zu gewährleisten. Insbesondere unter der Prämisse, möglichst viele Informationen der ursprünglichen Daten zu erhalten.
Aber was, wenn infolge anonymisierter Daten besonders die Datenqualität leidet und der nachfolgenden Analyse mehr schadet als nützt? Diese Problematik kann insbesondere in der Medizin zu erheblichen Fehlprognosen führen und sowohl Leben als auch Gesundheit der Patienten gefährden. Um eine solche Situation zu umgehen und gleichzeitig den Datenminimierungsgrundsatz zu beachten, wurden neue technische Methoden entwickelt wie etwa das sog. Federated Learning.
Statt die Daten zentral zu sammeln und zu analysieren, ist die Grundidee dieses KI-Modells die Daten dezentral – also dort, wo sie ursprünglich entstanden und gespeichert sind, z.B. auf dem Smartphone – auszuwerten. Die personenbezogenen Daten verlassen im Rahmen dieses KI-Modells zu keinem Zeitpunkt der Verarbeitung den Ursprungsort der Datenerhebung, indessen werden lediglich anonymen KI-Modellparameter weitergegeben. Das erfolgt auf diversen Endgeräten. Die vorhandenen KI-Parameter werden zentral gesammelt, aggregiert und anschließend wieder an die Endgeräte zurückgespielt, wodurch in Summe jeder von jedem lernt.
Dies bietet den Vorteil, dass Betroffenen die Kontrolle über ihre eigenen Daten behalten, keine Übermittlung der Ursprungsdaten erfolgt und das Risiko einer unbefugten Offenlegung erheblich reduziert wird. Der Grundsatz der Datenminimierung wird demnach bereits am Ursprungsort erfüllt.
Fazit
Auf den ersten Blick erweckt Big Data den Anschein im Widerspruch mit dem Grundsatz der Datenminimierung zu stehen. Bei genauerer Betrachtung wird jedoch klar, dass die Nutzung nicht von vornherein gegen die DSGVO verstößt. Der Datenminimierungsgrundsatz verlangt bei Vorliegen von personenbezogenen Daten keine absolute Reduzierung bzw. Beschränkung der Datenmenge. Stattdessen ist entscheidend, ob die erhobenen Daten zur Erreichung des angestrebten Ziels tatsächlich erforderlich sind und auf keine alternative Methode mit geringere Eingriffsintensität zurückgegriffen werden kann. Aus diesem Grund, kann abhängig vom festgelegten Zweck, die Verarbeitung von immensen Datenbergen unter Berücksichtigung der gewählten Methode dem Grundsatz der Datenminimierung entsprechen.