Transkriptions-Tools, KI-gestützte Sprachassistenten, Live-Dolmetscher oder Voice-Generatoren sind längst keine Zukunftsvision mehr, sondern fester Bestandteil unseres beruflichen wie privaten Alltags. Was auf den ersten Blick als bloßer Effizienzgewinn erscheint, wirft bei näherer Betrachtung grundlegende datenschutzrechtliche Fragen auf, denn all diesen Technologien ist eines gemein: Sie verarbeiten die menschliche Stimme.
Der vorliegende Beitrag setzt sich mit der Frage auseinander, ob bei der Verarbeitung der menschlichen Stimme die DSGVO Anwendung findet und, wenn ja, ob die DSGVO der Stimme nicht sogar einen erhöhten Schutzbedarf zugesteht.
Die Stimme als personenbezogenes Datum
Die Stimme eines Menschen ist grundsätzlich ein personenbezogenes Datum im Sinne des Art. 4 Nr. 1 DSGVO, denn sie lässt sich einer natürlichen Person zuordnen. Die Stimme selbst ist bereits aufgrund ihres Klangs, Tonfalls, aber auch der besonderen Art und Weise wie eine Person spricht, erkennbar individuell. So hat auch die finnische Aufsichtsbehörde festgestellt, dass die aufgezeichnete Stimme zweifelsohne als personenbezogenes Datum gilt, da eine natürliche Person darüber identifiziert werden kann (vgl. Tietosuojavaltuutetun toimisto, Entscheidung vom 24.06.2021, S. 5). Auch das Landgericht (LG) Berlin II erkennt in seinem Urteil vom 20.08.2025 (Az. 2 O 202/24) an, dass die eigene Stimme vom allgemeinen Persönlichkeitsrecht umfasst wird.
Die Verarbeitung der Stimme gemäß Art. 4 Nr. 2 DSGVO wie die Aufnahme des gesprochenen Wortes bedarf daher einer Legitimationsgrundlage nach Art. 6 DSGVO. Dabei wäre es auch irrelevant, ob die Aufnahme nur im flüchtigen Speicher erfolgen würde, solange eine Verarbeitung gemäß Art. 4 Nr. 2 DSGVO stattfindet. Dies wäre insbesondere im Fall von Transkriptionen relevant (mehr zum Thema Transkription von Gesprächen lesen Sie in diesem Beitrag).
Ein alleiniger Rückgriff auf Art. 6 DSGVO ist jedoch nur möglich, solange die Stimme nicht als besonderes personenbezogenes Datum gemäß Art. 9 Abs. 1 DSGVO gilt. Das wäre der Fall, wenn es sich bei der Stimme um ein sog. biometrisches Datum handeln würde.
Die Stimme – ein biometrisches Datum?
Die Stimme kann unter bestimmten Voraussetzungen als ein biometrisches Datum gemäß Art. 4 Nr. 14, 9 Abs. 1 DSGVO angesehen werden.
Biometrische Daten sind nach der Definition in Art. 4 Nr. 14 DSGVO
- mit speziellen technischen Verfahren gewonnene personenbezogene Daten
- zu den physischen, physiologischen oder verhaltenstypischen Merkmalen einer natürlichen Person,
- die die eindeutige Identifizierung dieser natürlichen Person ermöglichen oder bestätigen.
Die menschliche Stimme ist grundsätzlich ein statisches oder eben nur schwer veränderbares Merkmal einer Person, auch „Seins-Merkmal“ genannt So sieht dies auch die Datenschutzkonferenz (DSK) in ihrem Positionspapier zur biometrischen Analyse. Die Simme ist eine bestimmte körperliche Eigenschaft, die einer Person unmittelbar zugeordnet werden kann und i. d. R. dauerhaft an diese Person gebunden ist. Jeder Mensch hat nicht nur eine eigene Klangfarbe, sondern eben auch eine spezielle eigene Art zu sprechen. Ob dies bspw. die Geschwindigkeit oder der Rhythmus des Gesprochenen ist oder der Tonfall als solches sowie eine bestimmte Aussprache von Wörtern oder sogar die Art und Weise, wie Sätze gebildet werden. All diese Eigenschaften machen unsere Stimme und somit unser Gesagtes einzigartig.
Damit die Stimme allerdings als biometrisches Datum nach der DSGVO gilt, ist das speziell zum Einsatz kommende technische Verfahren ausschlaggebend. Die DSGVO verlangt, dass dieses sog. „Seins-Merkmale“ mittels „spezieller technischer Verfahren, welche die eindeutige Identifizierung dieser natürlichen Person ermöglichen oder bestätigen“ erhoben wurde. Darunter versteht man Systeme zum Zwecke der biometrischen Erkennung von Individuen anhand ihres Verhaltens oder eben ihren biologischen Charakteristika, wie bspw. eine Stimmerkennungssoftware. Hierzu ist es erforderlich, dass der Informationsgehalt der Daten für eine eindeutige Identifizierung ausreicht. Die Stimme muss daher ein einzigartiger Voiceprint (Stimmabdruck) darstellen können. Dabei mache es keinen Unterschied, ob es sich um Rohdaten oder die aus diesen gewonnenen Templates (Hashwerte) handelt, so die DSK in ihrem Positionspapier.
Es dreht sich daher alles um die Frage, welche Merkmale der Stimme extrahiert werden müssen, um sie einmalig und folglich identifizierbar zu machen. Dies ist allerdings weniger eine juristische, sondern eine wissenschaftliche Frage. Insofern sind Verantwortliche gehalten, die zum Einsatz kommenden technischen Verfahren genau unter die Lupe zu nehmen. Besonders hellhörig sollten Verantwortliche daher werden, wenn das zum Einsatz kommende technische Verfahren die Stimme bspw. in Inhalt, Rhythmus und Klangfarbe zerlegt. Ein weiterer Hinweis dürfte sein, wenn daneben technische Verfahren sog. Sprechcharakteristika verarbeiten wie Sprachsyntax und Sprechkadenz. Besonders wenn IT-Systeme das Gesprochene als Piktogramme darstellen, also eine visuelle Repräsentation der Audiodaten, sollte man als Verantwortlicher tiefer bohren und prüfen, ob der Dienstleister weitere einzigartige Merkmale aus der Stimme extrahiert und diese somit zu einem biometrischen Datum verarbeitet. Besonders IT-Systeme, die darauf ausgelegt sind, die Originalstimme nachzuahmen, dürften im Regelfall Technologien einsetzen, welche die einzigartigen Merkmale der Stimme extrahieren, um sie zu synthetisieren.
In der Praxis ist es nicht immer eindeutig, ob bestimmte Technologien die einzigartigen Merkmale einer Stimme zum Zweck der eindeutigen Identifizierung extrahieren, sodass Verantwortliche hier mit besonderem Augenmerk vorgehen müssen. Es ist daher stets Rücksprache mit dem Dienstleister der Technologie und dem eigenen Datenschutzbeauftragten zu halten. Das IT-System sowie dessen Funktionen sollten, wenn möglich, auf solche speziellen Techniken geprüft werden. Bestehen weiterhin Zweifel sollte rechtssicher davon ausgegangen werden, dass es sich bei der Stimme um ein biometrisches Datum handelt, da die Rechtsfolge für die Betroffenen einen höheren Schutz für deren Daten gewährleistet. Biometrische Daten sind vor allem deswegen besonders schutzwürdig, da sie gerade für den Betroffenen unveränderbar sind und im Falle eines Missbrauchs wie bspw. Deepfakes schwerwiegende Folgen für die betroffene Person haben können.
Rechtsfolgen bei biometrischer Verarbeitung nach der DSGVO
Der Gesetzgeber hat diese Datenkategorien als besonders sensibel eingestuft und ihnen damit den höchsten Schutzstatus der DSGVO zugewiesen. Dies hat zur Folge, dass eine Verarbeitung von biometrischen Daten nur dann möglich ist, wenn ein Ausnahmetatbestand des Art. 9 Abs. 2 DSGVO greift. Andernfalls ist eine Verarbeitung unzulässig. Für die Verarbeitung biometrischer Stimmdaten kommt in der Praxis i. d. R. die ausdrückliche Einwilligung in Betracht.
Daneben wird in den meisten Fällen auch eine Datenschutz-Folgenabschätzung erforderlich sein.
Des Weiteren sind wie stets alle Grundsätze der DSGVO einzuhalten, wie insbesondere die Transparenzpflichten. Besonders wenn die Verarbeitung auf der Rechtsgrundlage der Einwilligung beruht, sind Verantwortliche verpflichtet, detailliert über die Datenverarbeitung zu informieren, wie insbesondere wo eine biometrische Identifizierung anhand von Stimmdaten erfolgt und wie etwaige Voiceprints gespeichert und verbreitet werden.
Fazit
Die bloße Aufnahme einer Stimme macht diese noch nicht zu einem biometrischen Datum. Entscheidend ist vielmehr, ob die eingesetzte Technologie die individuellen Merkmale der Stimme extrahiert, um daraus ein eindeutiges Identifikationsprofil (Voiceprint) zu erstellen.
20. April 2026 @ 10:05
Gibt es einen konkreten Grund, um vom Wortlaut des Artikel 9 Abs. 1 DS-GVO abzuweichen? Dort wird speziell auf den Identifikations-Zweck abgezielt; jede andere Verarbeitung biometrischer Daten (z.B. zur Sprach-Synthetisierung) fiele nicht unter Artikel 9.
8. April 2026 @ 14:52
Insbesondere bei Zwillingen darf man eine eindeutige Identifizierung der natürlichen Person allerdings wohl bezweifeln. Ich bin mir nicht sicher, ob Systeme die Stimmen auseinander halten können. Beim Gesicht klappt es jedenfalls nicht immer – Microsoft Hello versagt bei Zwillingen.