Text-to-Speech (TTS)

Definition
Text-to-Speech (kurz TTS) ist eine KI-Technologie, die geschriebenen Text automatisch in gesprochene Sprache umwandelt. Dazu wird der Text von einer KI analysiert, in Lautsprache übersetzt und über synthetische Stimmen wiedergegeben. Diese Stimmen klingen je nach System unterschiedlich natürlich und können in Tonhöhe, Tempo oder Ausdruck angepasst werden.
Typische Einsatzbereiche von TTS sind:
- Vorlesefunktionen auf Webseiten, in E-Books oder Apps
- Navigationssysteme, die Fahranweisungen akustisch wiedergeben
- Fahrgastinformationen in Bus und Bahn, etwa automatische Haltestellenansagen
- Virtuelle Assistenten wie Siri oder Alexa, die auf gesprochene Befehle reagieren
- Callcenter und Hotlines, zum Beispiel zur automatischen Ansage von Öffnungszeiten oder Kontoständen
- Lernplattformen, etwa zum Sprachenlernen oder zur auditiven Unterstützung
- Robotik, z. B. für akustische Status- oder Wartungsmeldungen
Text-to-Speech erleichtert besonders Menschen mit Sehbeeinträchtigungen oder Leseschwierigkeiten den Zugang zu Informationen. Außerdem verbessert es die Nutzererfahrung überall dort, wo Informationen schnell und verständlich vermittelt werden sollen.
Ein Nachteil ist, dass viele synthetische Stimmen noch etwas unnatürlich oder monoton klingen; vor allem in emotionalen oder komplexen Kontexten. Doch moderne KI-Systeme entwickeln sich hier rasant weiter: Dank neuronaler Netze und sogenanntem Voice Cloning werden Stimmen immer natürlicher und kaum noch von echten Menschen zu unterscheiden.
Ihr Ansprechpartner

Torsten Klanitz
Produktmanager
Fon: +49 6151 8801 125

