Czym jest synteza mowy: TTS (text-to-speech)? Definicja.

TTS (ang. text to speech) to rozwiązanie umożliwiające przekładanie tekstu na mowę, czyli synteza mowy. Jest to końcowa część procesu, który umożliwia funkcjonowanie voicebotom. TTS jest częścią składową technologii głosowych, która odpowiada za wygenerowanie odpowiedzi zwrotnej dla użytkownika systemu w postaci głosowej. Generowanie tej wypowiedzi realizowane jest za pomocą syntezatora lub poprzez odegranie nagrań lektorskich.

Proces syntezy mowy dzieli się często na dwa główne etapy:

  • zrozumienie tekstu, czyli przetwarzanie języka naturalnego (NLP),
  • cyfrowe przetwarzanie sygnału.

Synteza mowy a język naturalny

Przed syntezatorami mowy stoją różne wyzwania w zależności od tego, w jakim języku ma zostać wygenerowana mowa. Syntezatory świetnie radzące sobie z j. angielskim, niekoniecznie sprawdzą się również w j. polskim. Najbardziej znanym polskim syntezatorem mowy jest system o nazwie Ivona, która jest obecnie własnością firmy Amazon.

Oprócz technologii syntezy mowy głosowi asystenci do działania potrzebują jeszcze ASR, czyli automatycznego rozpoznawania mowy.