Das neue Control „8.11 Data masking“ gehört zu den „Technological controls“ der ISO/IEC 27002:2022. Ziel dieses neu hinzugefügten Controls ist die Veröffentlichung sensibler Daten zu verhindern und gleichzeitig die rechtlichen, gesetzlichen, regulatorischen und vertraglichen Anforderungen zu erfüllen. Dieses Ziel lässt sich umsetzen, indem sensible Daten verschleiert werden. Sensible Daten können personenbezogene Daten sein, aber auch Geschäftsgeheimnisse, deren Veröffentlichung eine finanzielle oder rufschädigende Auswirkung hätte. Zur Verschleierung werden Techniken wie Pseudonymisierung und Anonymisierung genannt.

Was bewirken Pseudonymisierung und Anonymisierung?

Durch eine vollständige Pseudonymisierung oder Anonymisierung werden die betroffenen Daten entweder

  • vollständig verschleiert,
  • die wahre Identität der natürlichen Person, zu der die Daten gehören, wird verborgen oder
  • der Zusammenhang zwischen den Daten und der Person wird aufgehoben.

Der gravierende Unterschied zwischen Pseudonymisierung und Anonymisierung

Bei der Anonymisierung werden die Daten unwiderruflich so verändert, dass die Person, der die personenbezogenen Daten gehören, weder direkt noch indirekt identifiziert werden kann. Damit eine Datenanonymisierung auch wirklich wirksam ist, muss sichergestellt sein, dass selbst mit weiteren Hintergrundinformationen keine Zuordnung zu einer natürlichen Person möglich ist. Solange ein Zusammenhang noch erschlossen werden kann, müssen auch diese Informationen pseudonymisiert oder anonymisiert werden.

Bei einer Pseudonymisierung ist noch eine Zuordnung möglich, sofern die notwendigen Hilfsmittel zur Verfügung stehen. Die zu identifizierenden Informationen werden durch einen Alias ersetzt. Die Kenntnis von Zusatzinformationen, wie bspw. dem genauen Algorithmus zur Durchführung der Pseudonymisierung, ermöglicht weiterhin eine Identifizierung der betroffenen Personen. Daher müssen alle Zusatzinformationen getrennt aufbewahrt und ausreichend geschützt werden.

Pseudonymisierung ist ein schwächeres Mittel als eine Anonymisierung, kann aber, z. B. in der statistischen Forschung, von größerem Nutzen sein. Es hängt daher immer vom Anwendungszweck ab, welche der beiden Techniken zum Einsatz kommt.

Anonymisiert, aber doch nicht anonym

Ein Datensatz, der aufgrund der Aussagekräftigkeit seiner Informationen wieder auf die spezifische Person schließen lässt, zu der die Daten gehören, gilt nicht als anonymisiert, sondern maximal als pseudonymisiert. Solche Fälle können bspw. bei Gesundheitsdaten auftreten. Wenn der genaue Krankheitsverlauf eines Patienten so außergewöhnlich ist, kann dieser von einem Außenstehenden trotz „Anonymisierungsmaßnahmen“ noch der richtigen Person zugeordnet werden. In diesem Fall müssten entweder gravierende Informationen verschleiert werden (bspw. Alter, Krankheitsdauer, Ort der Arztbesuche) oder es muss explizit gekennzeichnet werden, dass es sich bei diesem Datensatz nicht um einen anonymisierten Datensatz handelt.

Datenmaskierung = Pseudonymisierung und Anonymisierung?

Als Datenmaskierung werden alle Techniken zum Verbergen, Ersetzen oder Verschleiern sensibler Datenelemente bezeichnet. In der ISO/IEC 27002:2022 wird der Begriff Data masking daher übergreifend für alle Arten der Verfremdung von Daten verwendet, unabhängig davon, ob eine Zuordnung möglich ist (Pseudonymisierung) oder nicht (Anonymisierung).

Möglichkeiten zur Datenmaskierung

Hashen

Zur Pseudonymisierung von Daten können gemäß der ISO/IEC 27002:2022 Hash-Funktionen genutzt werden. Diese erzeugen aus einem Eingabewert, wie im genannten Fall des Datensatzes mit sensiblen Personendaten, einen Ausgabewert (den sog. Hash) in einem gegebenen Wertebereich. Diese Funktion ermöglicht eine Anonymisierung, vorausgesetzt, sie ist nicht umkehrbar, es existiert also keine Möglichkeit von dem Hash zurück auf den ursprünglichen Eingabewert zu schließen, und kollisionssicher, d. h. es ist nicht möglich, zwei Eingabewerte zu finden, die denselben Ausgabewert erzeugen.

Um Enumerationsangriffe zu verhindern, sollten Hash-Funktionen immer mit einer Salt-Funktion kombiniert werden. Dabei wird eine zufällig gewählte Zeichenfolge (der namensgebende Salt) zu dem Eingabewert hinzugefügt, bevor dieser in einer Hash-Funktion verarbeitet wird, damit nicht alle Hash-Werte nach demselben Schema aufgebaut sind. Diese Hash-Werte unterscheiden sich dann von Hash-Werten ohne „Salt“ und können nicht mehr miteinander in Verbindung gebracht werden.

Verschlüsselung

Durch eine Verschlüsselung der Daten sind sie für unbefugte Nutzer nicht einzusehen und dementsprechend „verschleiert“. Autorisierte Benutzer können die Daten mit einem Schlüssel wieder sichtbar machen. Da die Zuordnung der Daten mit dem notwendigen Wissen (dem Schlüssel) noch möglich ist, handelt es sich hierbei um eine Pseudonymisierungsmaßnahme.

Löschen von Zeichen

Die Informationen werden undurchsichtig und sind nicht mehr zuordenbar, indem Teile der Informationen gelöscht werden.

Variieren von Zahlen und Daten

Der Datensatz verliert seinen Personenbezug, weil Informationen vertauscht und der ursprüngliche Datensatz somit verfälscht wird.

Substitution

Ein Wert, der einen Rückschluss auf eine Person zulässt, wird durch einen anderen ersetzt, bspw. der Name der Person durch einen generischen Namen wie „Max Mustermann“.

Was gibt es prinzipiell zu berücksichtigen?

Bei einer Verfremdung der Daten muss darauf geachtet werden, dass nur autorisierte Nutzer eine Möglichkeit zur Rückführung der Datenmaskierung haben und dass die übrigen Nutzer nur die erforderlichen Mindestdaten angezeigt bekommen. Dies lässt sich durch ein Rollenkonzept umsetzen. Ausschließlich bestimmte Rollen haben die Berechtigung zum Einsehen der Daten und jeder Beschäftigte ist einer Rolle zugeordnet.

Es gibt Fälle, in denen die Verschleierung von Informationen in den Datensätzen nicht zu erkennen sein darf. Wenn bspw. die Technik „Substitution“ genutzt wird, muss der ersetzte Wert realistisch gewählt werden. Im genannten Beispiel „Max Mustermann anstelle des Namens der Person“ wäre die Verschleierung offensichtlich und es müsste ein alternativer Name gefunden werden.

Personenbezogene Informationen in Ressourcenkennungen und deren Attributen, wie z. B. Dateinamen oder URLs, sollten prinzipiell entweder vermieden oder angemessen anonymisiert werden.

Die Stärke der Datenmaskierung ist von der Verwendung der verarbeiteten Daten abhängig. Wie bereits erwähnt, sind pseudonymisierte Daten für Statistiken deutlich nützlicher als anonymisierte Daten. Ist dennoch eine Anonymisierung der Daten gewünscht, muss eine Abwägung getroffen werden: Höhe des Sicherheitsniveaus vs. Nutzen der Daten.

Fazit

Das Control „Data masking“ beschreibt die Techniken zur Verschleierung von Daten, die in der Praxis am häufigsten Anwendung finden. Bedauerlicherweise gibt es keine allgemeingültige Anleitung, wie dabei vorzugehen und welche Technik die beste und sicherste ist. Stattdessen muss jedes Unternehmen selber abwägen, wie es für welche Arten von Daten vorgehen will. Die erste Hürde ist dabei das Gegenüberstellen von Sicherheitsniveau gegenüber Nutzen im Alltag. Anonymisierung ist zwar das stärkere Mittel zur Verschleierung, beeinträchtigt aber oftmals die Tauglichkeit für die weitere Datenverarbeitung und -verwertung. Eine weitere Schwierigkeit bei der Anonymisierung ist, dass besonders gründlich vorgegangen werden muss, damit Daten tatsächlich als anonym gelten können. Alle Möglichkeiten, von den Daten wieder auf die dazugehörige Person zu schließen, müssen identifiziert und unterbunden werden, z. B. durch Anonymisierung aller verknüpften Daten.

In der ISO/IEC 27002:2022 wird Hashing als ein Verfahren zur Anonymisierung von Daten bezeichnet. Nach der EU-DSGVO kann ein Datensatz durch Hashing allerdings maximal pseudonymisiert werden, da die Daten noch immer identifiziert werden können. Selbst wenn die beschriebene „Salt“-Technik zusätzlich angewandt wird, reicht dies nicht für eine umfassende Anonymisierung, sondern nur für eine Pseudonymisierung. Das sollte in der Praxis unbedingt berücksichtigt werden.