Mac & i 4/2023
S. 102
Test
iOS/iPadOS: Spracherkennung

Spracherkenner

Zwei iPhone-Apps setzen mit KI Gesprochenes in Text um

Übersichtlich: Nur Aiko (rechts) setzt automatisch Absatzmarken. Beide Apps halluzinieren, man blicke auf den letzten Satz.
Übersichtlich: Nur Aiko (rechts) setzt automatisch Absatzmarken. Beide Apps halluzinieren, man blicke auf den letzten Satz.

Gesprochenes verschriftlichen: Das ist die Aufgabe der Spracherkennung, ein Job für Spezialisten, wenn höchste Präzision gefragt ist. Mit iPhone, iPad und Mac gelingt eine halbwegs brauchbare Transkription bereits mit Bordmitteln, man nehme die Diktierfunktion. Geht es darum, Audioaufnahmen nachträglich zu verschriftlichen, setzen Apps wie Just Press Record auf den Apple-Erkenner und wandeln um. Höhere Ansprüche mit der Möglichkeit, wiederkehrenden Transkriptionsfehlern endgültig den Garaus zu machen oder das Vokabular zu bearbeiten, erfüllt unter anderem die Dragon-Spracherkennung der Microsoft-Tochter Nuance, die auf iPhone und iPad mit der kostenpflichtigen App Dragon Anywhere läuft.

Zwischen diesen Welten spielen zwei neue Apps mit verblüffend guter Erkennungsleistung. Sie verwenden die Open-Source-Spracherkennung Whisper vom ChatGPT-Macher OpenAI mit KI als Unterbau, sind gratis erhältlich, transkribieren allein auf dem Gerät und eignen sich für Dutzende von Sprachen. Whisperboard von Igor Tarasenko und Aiko von Sindre Sorhus verwenden ein ähnliches Bedienprinzip: Entweder diktiert man direkt in die App und lässt nach der Audioaufzeichnung verschriftlichen oder man wählt eine bereits vorhandene Audiodatei zur Umsetzung in Text. Whisperboard erlaubt es, das zu verwendende Sprachmodell selbst zu wählen und für die Offline-Verarbeitung herunterzuladen. Etwa Englisch in einer kleinen Variante mit 75 Megabyte Umfang oder Deutsch im Mediumformat mit 1,5 Gigabyte. Das größte Sprachmodell umfasst fast 3 Gigabyte.