Aus personenbezogen wird pseudonym, wird anonym, wird personenbezogen? Aktuelle Forschungsergebnisse weisen darauf hin, dass auch anonyme Daten, mit zunehmender Wahrscheinlichkeit, einen Personenbezug ermöglichen werden. Zukünftig wird die Frage zu beantworten sein, welche Anforderungen an eine erfolgreiche Anonymisierung gestellt werden sollen, um diesen Kreislauf zu beenden.

Der Weg hinein in die Anonymität

Die Verarbeitung von personenbezogenen Daten gemäß Art. 4 Nr. 1 DSGVO unterliegt den strengen Vorgaben der geltenden Datenschutzgesetze. Hierdurch werden den Betroffenen umfangreiche Möglichkeiten gegeben, sich über die Verarbeitung ihrer Daten zu informieren und ihre Selbstbestimmung durchzusetzen. Für den Schutz der personenbezogenen Daten müssen die Verantwortlichen umfangreiche Maßnahmen ergreifen, welche die Sicherheit der Daten garantieren und den Betroffenen die Durchsetzung ihrer Rechte ermöglichen soll. Beispielsweise können personenbezogene Daten pseudonymisiert werden, um einen direkten Personenbezug auszuschließen.

Gemäß Art. 4 Nr. 5 DSGVO sind personenbezogene Daten pseudonymisiert, wenn diese lediglich unter Hinzuziehen weiterer Informationen einer spezifischen Person zugeordnet werden können. Würden anschließend die zusätzlichen Informationen unwiderruflich gelöscht und somit eine spezifische Zuordnung zu einer Person nicht mehr möglich sein, handelt es sich um anonymisierte Daten. Ein Schutzbedarf für die ursprünglich Betroffenen besteht insofern nicht mehr, da sichergestellt wurde, dass die hier verarbeiteten Informationen zu ihrem Ursprung nicht mehr zurückverfolgt werden können. Im Ergebnis können die Daten frei verarbeitet und geteilt werden.

Auf die Tatsache, dass sich nicht alle personenbezogenen Daten, insbesondere genetische Daten, durch das Löschen von Zusatzinformationen anonymisieren lassen, haben wir bereits hingewiesen (https://www.datenschutz-notizen.de/forscher-warnen-vor-moeglichem-missbrauch-von-gendaten-5517795/).

Einen besonderen Bedarf an frei verfügbaren Informationen gibt es in den Bereichen der Forschung. Hier ist insbesondere die Weiterentwicklung von Künstlichen Intelligenzen auf die Verarbeitung von umfangreichen Datensätzen angewiesen (Machine Learning), deren Erkenntnisse zur Erstellung von verschiedenen Voraussagen genutzt werden. Die Anwendung der datenschutzrechtlichen Vorgaben zum Schutz der Betroffenen und deren Daten, insbesondere die Grundprinzipien der Transparenz und Nachvollziehbarkeit würden hier schnell an ihre Grenzen geraten. Beispielsweise wäre eine Verwendung des Deep Learning für die Entwicklung von KI, datenschutzkonform nicht mehr möglich, da hier systemimmanente Charakteristika wie der Black Box Effekt nicht vermieden werden können. Grundsätzlich sollte daher sichergestellt werden, dass ausschließlich anonyme Daten verwendet werden.

Der Weg heraus aus der Anonymität

Doch auch bei der Verwendung von anonymen Daten ist Vorsicht geboten. Die Tatsache, dass es sich um nicht personenbeziehbare Daten handelt, bedeutet nicht, dass diese tatsächlich unbeschränkt verwendet werden können. In seinem Ratgeber zum Beschäftigtendatenschutz empfiehlt bereits der Datenschutzbeauftragte für Baden Württemberg bei anonymen Mitarbeiterbefragungen auf eine Auswertung zu verzichten, sollten die anonymen Daten auf weniger als sieben Personen zurückzuführen sein. Hierbei wird der Tatsache Rechnung getragen, dass bei einer geringen Anzahl von Betroffenen eine Zuordnung grundsätzlich möglich sein kann, auch wenn lediglich anonyme Daten verarbeitet werden (https://www.baden-wuerttemberg.datenschutz.de/wp-content/uploads/2019/03/Ratgeber-Besch%C3%A4ftigtendatenschutz.pdf).

Neben einer zu geringen Anzahl von betroffenen Personen, bei der die Anonymität nicht mehr zweifelsfrei gewährleistet werden kann, sollte auch der Inhalt der verarbeiteten Daten berücksichtigt werden. So kann verschiedenen, vermeintlich anonymen Datumsangaben, eine nicht unerhebliche Aussagekraft zukommen, wenn diese in einem bestimmten Kontext betrachtet oder mit anderen Datensätzen kombiniert werden. Eine Identifikation der Betroffenen ist dann möglicherweise doch gegeben.

Selbst die Verarbeitung von anonymen Daten mit einer geringen Aussagekraft kann u.U. den Weg aus der Anonymität weisen. Möglich wird das bei der Verarbeitung von Datumsangaben in einem erheblichen Umfang.

Schlussendlich ist die Frage zu beantworten, ob sich eine Person anhand des vorliegenden Datenmaterials eindeutig identifizieren lässt. Dass die oben beschriebenen Einflussfaktoren unter Umständen zu einer Identifizierung führen können wurde bereits in einem Artikel der Nature Communication.beschrieben. Eine der Kernaussagen konstatiert, dass 99,98 % aller Amerikaner anhand von fünfzehn verschiedenen demografischen Faktoren aus einem beliebigen anonymen Datensatz wieder identifiziert werden könnten. Als Grundlage wurden frei zugängliche Datenbanken genutzt. Dabei sind die Forscher zu dem Ergebnis gekommen, dass wenige Merkmale zu einer zuverlässigen Identifizierung führen können, auch wenn die (ursprünglichen) Datensätze nur in Teilen veröffentlicht wurden.

Ausgehend von einem Beispielfall errechneten die Forscher die Einzigartigkeit eines Datensatzes (58 %) sowie die Wahrscheinlichkeit von 77 %, dass eine Wieder-Identifikation korrekt sei, allein ausgehend von der Postleitzahl, Geburtsdatum und dem Geschlecht der Person. Ergänzt wurden diese Informationen mit Angaben zur Anzahl der Kinder und die Wahrscheinlichkeit der Wieder-Identifikation stieg auf 99,8%.

Grundsätzlich stieg die Wahrscheinlichkeit mit der Summe der berücksichtigten Informationen.

Fazit

Im Ergebnis sollte also auch die Verarbeitung von anonymen Daten nicht aus dem Auge verloren werden und in der Praxis darauf geachtet werden, nicht vorschnell von einer wirksamen Anonymisierung auszugehen. Die Anforderungen an die erfolgreiche und unumkehrbare Anonymisierung von Daten sollten daher beständig dem Stand der Technik sowie der Summe an erhobenen und zukünftig noch erhebbaren Daten angepasst werden.