Die Transkription von Sprachaufzeichnungen kann die tägliche Arbeit in vielen Bereichen erleichtern. Allerdings muss dies auch datenschutzkonform erfolgen. Transkriptionsmodelle auf KI-Basis mit Servern in Drittstaaten sind grundsätzlich KO-Kriterien, insbesondere wenn die zu verarbeitenden Daten als besonders sensibel eingestuft werden.
Es gibt aber auch Lichtblicke am Transkriptionshorizont. Die bzw. der kommen bzw. kommt aus der Wissenschaft. Wissenschaftler*innen verarbeiten zwar regelmäßig wenig personenbezogene Daten, gleichwohl sind die Datensätze wissenschaftlicher Arbeiten nicht minder sensibel. Geraten diese zu früh an die Öffentlichkeit oder in die „falschen Hände“, kann dies gravierende Nachteile für Forschende und deren Ausarbeitungen nach sich ziehen. Vermutlich auch mit diesem Aspekte vor Augen wurde von Dr. Kai Dröge die KI-Basierte Audio-Transkriptionssoftware „noscribe“ entwickelt. Die 3,5 Gigabyte große Software wird auf dem lokalen PC bzw. der lokalen Serverstruktur installiert. Hierbei gilt: Je leistungsfähiger der Rechner/Server, umso schneller die Transkription – sprich: Mal eben „schnell“ geht es nicht. Dafür liegen die Daten dann aber lokal.
Bleibt wirklich alles lokal?
Wir haben unsere Penetrationstester einen Blick auf die Software bzw. den möglichen Datentransfer werfen lassen. Das Ergebnis war positiv:
„Bei der Prüfung der Windows-Version der Software wurde lediglich beim Starten eine HTTPS-Verbindung zu api.github.com aufgebaut, um die Release-Informationen des Repositorys abzufragen. Dabei wurden keine weiteren Daten über den Client o. Ä. übermittelt. Der Aufruf hat dabei aber weniger mit der Software selbst zu tun, sondern ist auf die Nutzung von GitHub als Online-Repository zurückzuführen.
Beim Transkribieren bzw. bei der Nutzung der Software war kein weiterer Netzwerkverkehr des Prozesses sichtbar. Auch im Quellcode auf GitHub konnten keine auffälligen Funktionen hinsichtlich eines Datentransfers identifiziert werden.“
Michael Cyl, M.Sc.
Informationssicherheitsexperte | Penetrationstests
Wie funktioniert noscribe?
Eigentlich ganz einfach:
- Zu transkribierende Tondatei auswählen;
- Speicherort der Textdatei wählen;
- Sprache auswählen;
- Transkriptionsmodell (schnell oder genau) wählen. Hier ist auch die Tonqualität entscheidend;
- Sprecher*innen auswählen (hier ist anzugeben, wie viele verschiedene Gesprächspartner*innen auf der Aufnahme zu hören sind; bis zu 10 Sprecher*innen sind möglich; je mehr Sprecher*innen, umso länger dauert die Transkription);
- Die Transkription mit „Start“ beginnen.
Klappt das wirklich?
Wir haben einen kleinen Text aufgezeichnet und die Datei von 1:24 Minuten Länge von „noscribe“ auf einem handelsüblichen Arbeits-Laptop transkribieren lassen.
Sprecher*in 1: Also, wenn wir die Tonaufnahmen transkribieren lassen, reicht es doch, einen Anbieter mit DSGVO-Zertifikat zu wählen. Dann ist das sicher, oder?
Sprecher*in 2: Ah, nicht unbedingt. Viele Anbieter speichern die Daten auf ihren Servern, die dann auch noch außerhalb der EU liegen. Manche nutzen sogar sie für KI-Trainings.
Sprecher*in 1: Hmm, heißt das, unsere Gespräche könnten in irgendeinem Algorithmus landen?
Sprecher*in 2: Genau. Und selbst wenn ein Anbieter Löschfristen angibt, wissen wir nicht, ob sie dann auch tatsächlich eingehalten werden.
Sprecher*in 1: Also dann einfach alles abtippen?
Sprecher*in 2: Zu langsam und viel zu teuer. Besser ist eine Lösung, die wir in unsere eigene IT einbinden. Dann bleiben die Daten ja einfach bei uns.
Sprecher*in 1: Also ganz einfach eine Software, die lokal läuft und keine Verbindung ins Internet braucht?
Sprecher*in 2: Ja, genau. Es gibt Transkriptionstools, die wir auf unseren eigenen Servern installieren können. Keine externen Dienstleister, keine Cloud, quasi volle Kontrolle.
Sprecher*in 1: Klingt sicher – aber das ist doch wieder mega kompliziert, oder?
Sprecher*in 2: Nö, mit der richtigen Software läuft das automatisch. Und wir vermeiden jedes Risiko, dass Daten nach außen gelangen.
Sprecher*in 1: Klingt vernünftig. Dann suchen wir eine Lösung und halten alles inhouse.
Sprecher*in 2: Genau. Datenschutz fängt damit an, dass sensible Daten unser Netzwerk gar nicht verlassen können.
Sprecher*in 1: Dann mal los.
Wir haben zwei Transkriptionsalternativen getestet:
Transkription 1:
Keine Differenzierung nach sprechenden Personen und schnelle Transkription:
Transkription 2:
Zwei Sprecher*innen angegeben und schnelle Transkription:
Fazit
Lokale Transkriptionsmodelle gibt es. Diese sind sicherlich nicht so schnell, wie webbasierte Lösungen Bei Test 1 dauerte die Transkription weniger als eine Minute. Bei Test 2 deutlich länger (über 5 Minuten). Ob eine Installation auf einem Server schneller ist, müsste separat getestet werden. In jeden Fall und das ist ein großer Pluspunkt, bleiben die Informationen im Hoheitsbereich der verantwortlichen Stelle.
Die Erkennung im Test war sehr gut. Es gab nur minimalen Korrekturaufwand, der aber keine inhaltliche oder kontextbezogene Relevanz hatte.
Um schnellere Ergebnisse zu bekommen, könnten die Transkriptionen im Hintergrund oder außerhalb der üblichen Geschäftszeiten laufen, sodass diese den Anwender*innen dann auch zeitnah zur Verfügung stehen.