Was sind Neuronale Stimmen?

Bei AWS, Google und Microsoft gibt es zwei Arten von Stimmen: „Standard“ und „Neuronal“. Neuronale Stimmen nutzen KI-basierte Sprachmodelle und klingen in der Regel deutlich natürlicher als Standardstimmen.

So nutzt Du neuronale Stimmen

Da sich die Preise für die Nutzung Standardstimmen und neuronalen Stimmen deutlich unterscheiden, stehen neuronale Stimmen nicht im „Authoring“-Paket zur Verfügung. Um neuronale Stimmen in einem Projekt nutzen zu können, muss dieses mit einem „Production“ Konto erstellt werden. Danach können alle ins Projekt Eingeladenen ebenfalls die neuronale Stimmen nutzen, auch wenn sie lediglich Frazier „Authoring“ abonniert haben. Es ist also wichtig, wer das Projekt erstellt!

Wie erkenne ich eine neuronale Stimme?

Zum einen wirst Du im direkten Vergleich zwischen Standardstimme und neuronaler Stimme schnell feststellen, dass die Sprachausgabe deutlich weniger Aussprachefehler und eine natürlichere Satzmelodie enthält. Auch ist die Tonqualität besser. Außerdem kann man je nach Anbieter die Stimmen wie folgt am Namen identifizieren:

AWS

Bei AWS Polly ist es schwierig, eine konkrete Liste mit Namen zu pflegen, da sich diese tagesaktuell ändern kann und manchmal auch Standardstimmen in Neuronale Stimmen umgewandelt werden. Schau bitte in diese Liste aller neuronalen Stimmen. Falls Du in Frazier eine Stimme findest, die dort nicht aufgelistet ist, handelt es sich um eine Standardstimme.

Google

Standardstimmen: Alle Standardstimmen sind am Namen erkennbar: „de-DE-Standard-*“. Das Sternchen wird durch einen Buchstaben ersetzt, momentan geht es von A-F.
Neuronale Stimmen: Neuronale Stimmen erkennst Du auch am Namen. Er enthält die Wörter „Wavenet“, “Neural2” oder “Polyglot”.

Tipp: Eine Besonderheit bei Google: unterschiedliche Stimmen mit dem selben Buchstaben sind Aufnahmen vom selben Person. Dadurch verhalten sich Standardstimmen und neuronale Stimmen an dieser Stelle sehr ähnlich. So kann man bspw. ein Manuskript, was mit „de-DE-Standard-B“ erstellt wurde vergleichsweise einfach so umstellen, dass es mit „de-DE-Wavenet-B“ oder „de-DE-Neural-B“ vorgelesen wird, ohne das viele nachträgliche Änderungen notwendig wären.

Microsoft

Standardstimmen: Allen Standardstimmen von Microsoft fehlt das “Neural” im Namen.
Neuronale Stimmen: Alle neuronalen Stimmen von Microsoft tragen das Wort “Neural” im Namen.

Standardstimmen fallen bald weg!

Achtung: Microsoft wird die Standardstimmen ab dem 31. August 2024 nicht mehr anbieten. Hier die Original-Meldung, die uns erreicht hat:

“You’re receiving this email because you may be using standard voices of Text-to-Speech, a capability of Speech service within Azure Cognitive Services. Text-to-Speech currently supports both standard and neural voices. However, since the neural voices provide more natural sounding speech output, and thus, a better end-user experience, we’re retiring the standard voices on 31 August 2024 and they’ll no longer be supported after that date.” – Microsoft

Tipp: Nutze Microsoft nur noch für TTS-AD Produktionen und setze für reine Manuskripte besser auf AWS oder Google. Dann gibt es nächstes Jahr keine böse Überraschung.

ElevenLabs

Frazier verfügt zudem über ein Plugin zur Integration von ElevenLabs. Die neueste Generation von Text-To-Speech Engines erlaubt neben einer Vielzahl von neuen Stimmen auch das Klonen der eigenen Stimme.

Du hast Du einen ElevenLabs-Account, den Du in Frazier nutzen willst? Dann melde Dich beim Support, um die Integration in Dein Benutzerkonto zu besprechen.

Stand: 01.10.2023

Einleitung

Audio-Export