Die „technologische Anschlussfähigkeit“ Europas ist im internationalen Wettbewerb unverzichtbar und kann aufgrund der hohen europäischen Datenschutzstandards auch als Chance angesehen werden, um neue Datenverarbeitungstechnologien in der Form einzusetzen, dass sowohl Unternehmensinteressen als auch die Interessen von Betroffenen ausreichend berücksichtigt werden können und die Daten zugleich eine hohe Nachnutzbarkeit haben. Dieser Beitrag skizziert, inwieweit die Daten-Synthetisierung eine echte Alternative zur Anonymisierung darstellt und ob die datenschutzrechtlichen Hürden vergleichbar sind.

Was versteht man unter Daten-Synthetisierung?

Eine neue und viel diskutierte Datenverarbeitungstechnologie ist die Daten-Synthetisierung. Es handelt sich dabei um eine Verfahrensweise, mit der ein Algorithmus eine künstliche Repräsentation eines Originaldatensatzes erstellt. In diesem Verfahren werden personenbezogene Daten nicht nur lediglich um Identifikationsmerkmale bereinigt – wie es bei der Anonymisierung der Fall ist –, sondern es wird ein gänzlich neuer Datensatz erzeugt, der auf dem trainierten Verständnis eines Originaldatensatzes basiert. Dieser neue Datensatz besteht sodann aus synthetischen Einheiten, welche keinen Personenbezug mehr aufweisen, da sie „neu geschaffen“ wurden.

Vorteile und datenschutzrechtliche Hürden der Daten-Synthetisierung

Problematisch ist bei der Synthetisierung, dass der Verarbeitungsvorgang an sich – also in diesem Fall das Einpflegen der Originaldaten in den Algorithmus – einen Datenverarbeitungsvorgang im Sinne des Art. 4 Nr. 2 DSGVO darstellt und demnach in den Anwendungsbereich der DSGVO fällt. In dieser Hinsicht unterscheidet sich die Daten-Synthetisierung nicht von der Anonymisierung. Entsprechend bedarf es auch für die Synthetisierung einer datenschutzrechtlichen Legitimationsgrundlage zur Datenverarbeitung, welche eben oftmals praktische Hürden mit sich bringt und die Verarbeitung der Daten erschwert (wir berichteten hier und hier).

Daher stellt sich die Frage, ob die Synthetisierung im weiteren Verlauf der Datennutzung einen Vorteil gegenüber der Anonymisierung bringt. Es könnte die These aufgestellt werden, dass die Nachnutzbarkeit der Daten nach dem Synthetisierungsvorgang im Vergleich ein probateres Mittel darstellt, da eine Re-Identifizierung eines synthetischen Datensatzes sich in der Praxis deutlich komplizierter gestalten könnte als bei einer Anonymisierung. Denn: Die Aggregierung synthetischer Daten ist komplex und KI-gesteuert. Zudem könnten durch entsprechende weitere „Garantien“, wie bspw. das pseudonymisierte Einpflegen der Originaldatensätze in den Algorithmus, die Löschung ebendieser nach kurzer Zeit, die Verwendung von Zugriffsberechtigungen etc., zusätzliche Kriterien erarbeitet werden, die eine wesentliche „Schutzreserve“ bilden würden.

Bei einer Anonymisierung ist problematisch, dass die Daten häufig kaum Informationsgehalt aufweisen und diese dann für Unternehmen „nutzlos“ sind. Hier könnten synthetische Datensätze einen erheblichen Vorteil bringen, da der Algorithmus einen reellen synthetischen Datensatz auf einem gelernten Verständnis erzeugt und die Daten somit einen höheren Informationsgehalt aufweisen würden. Die Originaldaten wären für die Nachnutzung und – nach einer gewissen „Lernzeit“ – auch für den Algorithmus irrelevant. Ein weiteres Problem ergibt sich bei der Anonymisierung insbesondere aus den mangelnden Anforderungen bzw. gesetzlichen Regelungen für diesen Vorgang. Auf der Betroffenenseite würde eine Synthetisierung also zum einen den Vorteil bringen können, dass die erhobenen Daten nicht „unorganisiert“ anonymisiert oder pseudonymisiert würden und die weiteren Verarbeitungsvorgänge unklar blieben. Zum anderen bietet die Synthetisierung mehr Sicherheit im Umgang mit den personenbezogenen Daten und ein geringeres Risiko einer Re-Identifizierung, da nicht wie im Worst Case bei einer Anonymisierung die Daten lediglich durch das Entfernen von Identifikationsmerkmalen oder das Fehlen eines „Schlüssels“ als anonym gelten.

Fazit

Bei synthetischen Daten kann in jedem Fall von einem ausreichenden Grad der Anonymisierung ausgegangen werden. Synthetische Daten weisen grundsätzlich keinen Bezug zu der betroffenen Person auf, da der Algorithmus lediglich aus den Originaldaten lernt und neue, simulierte Datensätze entwickelt und diese sodann aus einem Zusammenschluss mehrerer Datenkategorien zusammengeführt werden. Selbst wenn eine Re-Identifizierung mathematisch nicht komplett auszuschließen ist, könnte ein Ansatz sein, den Grad der Anonymisierung bzw. der Sicherheit (des Risikos) an diversen Kriterien zu messen: Implementierung des Originaldatensatzes, Aufwand, Kosten, Zeit, Know-how, technische Entwicklung usw., welche mehr Sicherheit als bei einer Anonymisierung bedeuten könnten.

Es wird oftmals kritisiert, dass das Datenschutzrecht der technischen Entwicklung Steine in den Weg legt. Auch bei der Synthetisierung ist problematisch, dass diese als Datenverarbeitung selbst in den Anwendungsbereich der DSGVO fällt und dementsprechend wiederum einer Rechtsgrundlage bedarf. Diese Tatsache erleichtert bestimmte Prozedere für Unternehmen, wie bspw. das Einholen einer Einwilligung von Betroffenen, augenscheinlich nicht erheblich. Für die betroffene Person könnte eine Daten-Synthetisierung allerdings mehr „Sicherheit“ bedeuten. Zudem wird aufgrund des geringen Re-Identifizierungsrisikos ggf. auch ein grenzüberschreitender Austausch von Daten leichter möglich.