Die Datenschutz-Grundverordnung oder auch der California Consumer Privacy Act sehen vor, dass ein Personenbezug bei Daten nicht mehr vorliegt, wenn diese Daten tatsächlich anonym sind. Dies unterscheidet sich (auch unter Berücksichtigung von Erwägungsgrund 26 der Datenschutz-Grundverordnung) von der früheren Rechtslage des alten BDSG, nach der eine Anonymisierung per definitionem auch dann vorlag, wenn eine De-Anonymisierung nur mit einem „unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft“ durchgeführt werden konnte (§ 3 Abs. 6 BDSG alt).
Wann sind anonyme Datensätze aber wirklich anonym? Yves-Alexandre de Montjoye zeigt, dass es kein Hexenwerk ist, aus vermeintlich „anonymen“ Datensätzen, die etwa von den Verantwortlichen im Internet bereitgestellt werden, mit großer Wahrscheinlichkeit eine bestimmte Person zu identifizieren (für eine Wahrscheinlichkeit bietet sich dieser Selbsttest an). Dies gilt selbst in Fällen, in denen die Datensätze mit bestimmten Zusatzinformationen versehen sind, um eine Identifizierung zu erschweren (adding noise), oder die Daten gesamplet wurden (also z.B. nur Teile zur Verfügung zu stellen). So passiert es oft genug, das vollmundige Versprechungen, Datensätze seien „anonym“, gezielten Angriffen nicht standhalten und nachträglich wieder aus dem Netz entfernt werden müssen. Meldepflichtige Datenpannen nach Art. 33 / 34 Datenschutz-Grundverordnnung sind hier keineswegs ausgeschlossen.
Nur eine vermeintliche Lösung ist es, sogenannte query-based-systems zu etablieren, bei denen die Datensätze nicht frei zugänglich sind, aber das steuernde System einzelne Abfragen ermöglicht, mit denen nur aggregierte Daten offengelegt werden. Dies stellt nach de Montjoye keine sichere Lösung dar, da durch wiederholte Abfragen und der simplen Anwendung der Mengenlehre Individualisierungen möglich bleiben. Nach de Montjoye schaffen auch Dienste wie Diffix, die auf eine dynamische Anonymisierung setzen, keine Sicherheit. de Montjoye legt dar, dass dieses System theoretisch etwa dadurch ausgehebelt werden kann, indem man aus mehreren Anfragen den hinzugefügten Noise aussondert, um so die korrekten Daten zu erschließen. All dies erschwert die Arbeit eines Datenschutzbeauftragten, da er nicht darauf vertrauen kann, dass ein vermeintlich anonymer Datensatz auch wirklich anonym ist. Ganz sicher keine Lösung ist es, die De-Anonymisierung unter Strafe zu stellen.
Die Moral von der Geschichte ist, dass die bestehenden Anonymisierungsmöglichkeiten erhebliche Schwächen aufweisen und kein unbedingtes Vertrauen rechtfertigen – es bedarf also in jedem Fall einer Prüfung des Einzelfalls. So verlangt etwa auch Erwägungsgrund 26 der DSGVO, dass zur Frage, ob eine natürliche Person identifizierbar ist, „alle Mittel berücksichtigt werden, die von dem Verantwortlichen oder einer anderen Person nach allgemeinem Ermessen wahrscheinlich genutzt werden, um die natürliche Person direkt oder indirekt zu identifizieren, wie beispielsweise das Aussondern“. In Anbetracht der Tatsache, dass die Mittel für eine solche Re-Identifizierung unter Experten seit langem hinlänglich bekannt sind, sollte ein Datenschutzbeauftragter auch bei vermeintlich „anonymisierten“ großen Datenbeständen präzise prüfen, ob die gewählten Anonymisierungsmaßnahmen ausreichend sind, und einen Personenbezug nicht leichtfertig ausschließen.
Der Talk wurde leider nur gestreamt und (noch) nicht für media.ccc.de aufgezeichnet, sobald dieser auf anderen Plattformen (zulässigerweise) veröffentlicht werden sollte, wird der Link hier hinzugefügt.