Wie schnell ist 'Echtzeit'?
Die Latenz variiert je nach Tool und Implementierung. Voco veröffentlicht eine End-to-End-Latenz von ~500 ms – eine halbe Sekunde vom gesprochenen Wort bis zum Erscheinen des Textes auf dem Bildschirm eines Besuchers. LiveVoice behauptet 0,2 Sekunden. Glossa beschreibt seine Geschwindigkeit als 'Bruchteile einer Sekunde', ohne eine Zahl zu nennen. Bei Sub-Sekunden-Latenz fühlt sich die Übersetzung tatsächlich simultan an – weit besser als die Verzögerungen von mehreren Sekunden bei älteren Systemen.
Was mit der Latenz schiefgehen kann
Die Latenz verschlechtert sich, wenn: (1) die WLAN-Verbindung abbricht und das System sich nicht ordentlich erholt (das 'Minuten zurück'-Problem); (2) der Übersetzungsserver unter Last steht; (3) die Audio-Pipeline Verzögerungen einführt, bevor das Audio die Übersetzungs-Engine erreicht. Gut konzipierte Systeme wie Voco behandeln Verbindungsabbrüche mit automatischer Wiederverbindung und Nachlieferung – selbst wenn die Latenz kurz zunimmt, holt der Inhalt auf, anstatt dauerhaft zurückzufallen.
Echtzeit vs. nahezu-Echtzeit vs. menschliche Dolmetscher
- Menschliche Simultandolmetscher: 0–2 Sekunden Verzögerung, höchste Genauigkeit, sehr teuer
- KI-Echtzeit-Übersetzung (Voco, LiveVoice): 200–600 ms, sehr gute Genauigkeit für gängige Sprachen
- KI-nahezu-Echtzeit-Übersetzung: 1–3 Sekunden, gute Genauigkeit – ausreichend für die meisten Gottesdienste
- Menschliche Konsekutivdolmetscher (laut nach jedem Absatz gesprochen): 30–90 Sekunden Verzögerung, typischerweise nur in Kleingruppen