Die automatische Transkription von Telefongesprächen und Videokonferenzen durch KI-Systeme verspricht Effizienzgewinne im Berufsalltag, bspw. auch im Kundenservice. Doch die rechtlichen Anforderungen sind komplex und werden von Unternehmen oft unterschätzt. Im Folgenden erhalten Sie einen Überblick über die wesentlichen datenschutzrechtlichen Rahmenbedingungen sowie die Risiken, die bei der praktischen Umsetzung zu berücksichtigen sind.
Live-Transkription zur Zusammenfassung: Ein datenschutzfreundlicher Ansatz?
Das Bayerische Landesamt für Datenschutzaufsicht (BayLDA) hat sich in seinem 15. Tätigkeitsbericht 2025 (S. 56 f.) mit der Frage befasst, ob die Live-Transkription von Videokonferenzen zur Erstellung von Zusammenfassungen auf ein berechtigtes Interesse gemäß Art. 6 Abs. 1 lit. f DSGVO gestützt werden kann.
Die Behörde kommt zu dem Ergebnis, dass eine solche Live-Transkription ohne dauerhafte Speicherung des gesprochenen Wortes grundsätzlich auf ein berechtigtes Interesse gestützt werden kann, aber eine Erforderlichkeitsprüfung pro Einzelfall erfolgen muss. Die Begründung: Die Transkription dient der Vereinfachung der Dokumentation, mildere Mittel sind nicht ersichtlich und die manuelle Eingabe wäre zeitaufwändiger. Entscheidend ist dabei, dass das Transkript selbst nicht gespeichert wird, sondern lediglich eine anonymisierte Zusammenfassung.
Strafrechtliche Einordnung
Kritische Anmerkung: Das BayLDA setzt sich in seiner Stellungnahme allerdings nicht mit der strafrechtlichen Dimension des § 201 StGB (Verletzung der Vertraulichkeit des Wortes) auseinander. Diese Norm stellt das unbefugte Aufnehmen des nichtöffentlich gesprochenen Wortes unter Strafe. Unternehmen sollten daher prüfen, ob bei dem eingesetzten Transkriptionstool eine technische Zwischenspeicherung des Audiosignals erfolgt, die über eine flüchtige RAM-Verarbeitung hinausgeht. Die Unterscheidung kann man wie folgt vornehmen (vgl. hier):
Variante 1: Echte Live-Transkription
Werden die Gesprächsinhalte ausschließlich „on the fly“ transkribiert, ohne dass das Tonmaterial als solches gespeichert wird, liegt keine Aufnahme im Sinne des § 201 StGB vor. In diesem Fall erscheint eine Stützung auf das berechtigte Interesse vertretbar.
Variante 2: Transkription mit Zwischenspeicherung
Die meisten marktüblichen Transkriptionstools umfassen eine Zwischen- oder Pufferspeicherung des Audiosignals, die über eine bloße flüchtige RAM-Verarbeitung hinausgeht. In diesem Fall wird das gesprochene Wort technisch festgehalten und der Anwendungsbereich des § 201 StGB ist eröffnet. Hier ist eine Einwilligung i.S.d. StGB erforderlich.
Form der Einwilligung aus dem StGB
Prozesserleichternd dürfte es sich verhalten, dass die Einwilligung aus dem StGB sich vermutlich nicht an den Voraussetzungen der DSGVO messen lassen muss. Konkrete Vorgaben sollten aber durch einen Fachanwalt geprüft werden. So auch der Landesbeauftragte für Datenschutz und Informationsfreiheit Baden-Württemberg (LfDI BW) im 40. Tätigkeitsbericht:
„So kann sich nach §201 StGB strafbar machen, wer das nichtöffentlich gesprochene Wort unbefugt – d. h. ohne Einverständnis – auf einen Tonträger aufnimmt. Vor diesem Hintergrund kann ebenfalls eine (zumindest stillschweigende oder mutmaßliche) Einwilligung erforderlich sein.“
Demnach reicht eine stillschweigende oder mutmaßliche Einwilligung in den Augen der Aufsichtsbehörde.
Datenschutzrechtliche Rechtsgrundlage
Datenschutzrechtlich ist dann eine Einwilligung erforderlich, wenn nicht nur eine Zusammenfassung, sondern das vollständige Transkript des Gesprächs dauerhaft gespeichert werden soll.
Die Datenschutzkonferenz (DSK) hat bereits 2018 in einem Beschluss festgestellt, dass die Aufzeichnung von Telefongesprächen datenschutzrechtlich in aller Regel nur mit Einwilligung zulässig ist.
Diese Position wurde vom Sächsischen Landesbeauftragten für Datenschutz in seinem Tätigkeitsbericht 2022 (S. 99f.) bekräftigt:
„Festzustellen ist zunächst, dass eine solche Gesprächsaufzeichnung keinesfalls auf Art. 6 Abs. 1 Buchst. f DSGVO gestützt werden kann. Dagegen spricht zum einen, dass eine Gesprächsaufzeichnung schon nicht erforderlich ist, denn die Qualitätssicherung des Telefonats kann auch durch andere Möglichkeiten erreicht werden. Darüber hinaus stehen aber auch gewichtige Interessen der anrufenden Personen einer Aufzeichnung entgegen, denn hier geht es um die Gewährleistung der Vertraulichkeit des nichtöffentlich gesprochenen Wortes.“
Für Transkripte, die das vollständige Gespräch wiedergeben, gelten nach hier vertretener Auffassung dieselben Grundsätze. Das gesprochene Wort wird 1:1 verschriftlicht, die Vertraulichkeit des Wortes ist damit ebenso betroffen wie bei einer Audioaufnahme.
Der Landesbeauftragte für den Datenschutz und die Informationsfreiheit Baden-Württemberg (LfDI BW) hat sich in seinem 40. Tätigkeitsbericht 2024 (S. 134ff.) ebenfalls mit dem Einsatz von KI-Tools zur Transkription befasst und dabei wichtige Hinweise für die Praxis gegeben.
Nach deren Auffassung kommt in der Praxis neben der Wahrung berechtigter Interessen nach Art. 6 Abs. 1 lit. f DSGVO häufig eine Einwilligung nach Art. 6 Abs. 1 lit. a DSGVO in Betracht. Soweit Gesundheitsdaten im Gespräch betroffen sein können, ist Art. 9 Abs. 2 lit. a DSGVO einschlägig. Dies deutet darauf hin, dass lt. LfDI BW auch Anwendungsfälle denkbar sind, in denen gerade keine Einwilligung erforderlich sein könnte.
Gleichermaßen kommen u. U. auch berechtigte Interessen als Rechtsgrundlage in Betracht. Zugleich weist der LfDI BW explizit darauf hin, dass in Deutschland das gesprochene Wort besonders geschützt ist. Demnach kann davon ausgegangen werden, dass für ein Wort für Wort Transkript eine Einwilligung für erforderlich erachtet wird, während für eine allgemeine Zusammenfassung berechtigte Interessen herangezogen werden können.
Handlungsempfehlungen für die Praxis
1. Technische Prüfung durchführen
Vor dem Einsatz eines Transkriptionstools sollte geprüft werden, ob und wie lange Audiodaten gespeichert werden, bzw. wie das System funktioniert.
2. Differenzierte Rechtsgrundlagen wählen
Für die Live-Transkription zur Erstellung von Zusammenfassungen ohne oder nur kurzfristige Speicherung des Transkripts kann das berechtigte Interesse herangezogen werden. Für die dauerhafte Speicherung des vollständigen Transkripts dürfte im Normalfall eine Einwilligung sowohl des Kunden als auch des Mitarbeiters erforderlich sein. Die Rechtsgrundlage ist stets im Einzelfall zu bewerten. Darüber hinaus ist zu prüfen, ob ggf. eine Einwilligung i.S.d. § 201 StGB erforderlich ist.
3. Transparenz gewährleisten
Über die Transkription muss nach Art. 13 DSGVO informiert werden. Der LfDI BW empfiehlt, Teilnehmende bereits im Vorfeld über die geplante Transkription zu informieren. Pauschale Hinweise wie „Das Gespräch wird zur Qualitätssicherung aufgezeichnet“ sind nicht ausreichend.
4. Freiwilligkeit
Soll die Speicherung von Transkripten auf eine Einwilligung gestützt werden, muss die Freiwilligkeit und Transparenz gewährleistet sein. Insbesondere bei Mitarbeitern ist dies nur möglich, wenn die Transkription nicht pauschal für alle Gespräche erfolgt und ein „Nein“ ohne Konsequenzen bleibt.
5. Löschfristen einrichten
Soweit Transkripte datenschutzkonform erhoben wurden, sollten Löschfristen eingerichtet werden. Eine Speicherung über die Beantwortung des Anliegens hinaus sollte nur erfolgen, wenn eine gesetzliche Aufbewahrungspflicht besteht und diese auch die Transkripte umfasst.
Fazit
Die Transkription von Telefongesprächen und Videokonferenzen durch KI-Systeme bietet unbestreitbare Effizienzvorteile. Die rechtlichen Anforderungen sind jedoch komplex und erfordern eine sorgfältige Ausgestaltung der Prozesse.