In den vergangenen Monaten konzentrierte sich OpenAI eigenen Angaben zufolge vorrangig auf die Entwicklung und Optimierung textbasierter AI Agents – darunter etwa der Operator, welcher neuerdings auch in Deutschland verfügbar ist. Um „tiefergehende, intuitivere Interaktionen“ mit AI Agents zu erleben, sei jedoch eine Kommunikationsweise, die über Text hinausgeht, essentiell. Realisiert wird diese jetzt durch den Launch neuer Speech-to-Text- und Text-to-Speech-Modelle in der API. Diese sollen es Developern ermöglichen, intelligente und anpassbare Voice Agents zu entwickeln. Die Modelle, welche auf GPT-4o und GPT-4o mini basieren, übertreffen laut OpenAI sowohl die Speech-to-Text-Technologie Whisper als auch die bisherigen Text-to-Speech-Modelle des Unternehmens.
00:00 Intro
01:32 Audio agents
03:27 Speech-to-text
06:18 Text-to-speech
08:48 Agents SDKRead more in our blog post: https://t.co/DQYJAO3eA3 https://t.co/ZtJbWexks9 pic.twitter.com/X6pikNMCjI
— OpenAI Developers (@OpenAIDevs) March 20, 2025
Personalisierbarer denn je
Das neu eingeführte Text-to-Speech-Modell, welches über eine verbesserte Steuerbarkeit verfügen soll, ermöglicht es Entwickler:innen, Stimmen mit Charakter zu kreieren. Da nicht mehr nur der Inhalt, sondern auch die Sprechweise umfassend angepasst werden kann, eröffnen sich verschiedenste Anwendungsbereiche. Developer können beispielsweise Voice Agents erschaffen, die wie ein:e einfühlsame:r Customer-Service-Mitarbeiter:in oder ein:e ausdrucksstarke:r Geschichtenerzähler:in klingen. OpenAI erklärt:
For the first time, developers can “instruct” the model not just on what to say but how to say it—enabling more customized experiences for use cases ranging from customer service to creative storytelling.
Über die interaktive Demo-Website lassen sich die neuen Text-to-Speech-Funktionen direkt ausprobieren. Du kannst eine von elf verschiedenen Stimmen auswählen und zudem einen von fünf Vibes – darunter freundlich, professionell und dramatisch. Zusätzlich besteht die Möglichkeit, individuelle Vorgaben zum gewünschten Tonfall, zur Aussprache und zu weiteren sprachlichen Merkmalen zu machen. Die so konfigurierte Stimme kann anschließend ein selbst verfasstes Skript vorlesen.
Neues Modell schreibt eigenständig Meeting-Protokoll
Auch die zwei neuen Speech-to-Text-Modelle sollen neue Maßstäbe setzen und besonders in anspruchsvollen Fällen – wie Aufnahmen in lauter Umgebung, Stimmen mit starken Akzenten oder variierenden Sprechgeschwindigkeiten – durch eine hohe Leistungsfähigkeit überzeugen. Durch die optimierte Transkriptionszuverlässigkeit eignen sich die Modelle unter anderem für den Einsatz in Call-Centern oder bei der Protokollierung von Meetings.
OpenAI launcht zudem eine Integration mit dem kürzlich eingeführten Agents SDK. Entwickler:innen können somit ihre textbasierten Agents aus dem Agents SDK in wenigen Schritten in voll funktionsfähige Voice Agents umwandeln.