Czym jest automatic speech recognition (ASR)? Definicja.

Automatic speech recognition (ASR) oznacza automatyczne rozpoznawanie mowy przez program komputerowy. Jest to interdyscyplinarna dziedzina nauki korzystająca zarówno ze zdobyczy informatyki, jak i lingwistyki. Główną ambicją tej dziedziny jest rozwijanie metodologii i technologii umożliwiających komputerom rozpoznawanie i tłumaczenie języka mówionego. W praktyce więc zdania wypowiadane przez człowieka zamienia na tekst.

ASR jest dzisiaj niezbędną technologią działania głosowych asystentów (voicebotów) razem z takimi technologiami jak m.in. STT (speech to text) oraz TTS (text-to-speach) tworzą spójny ekosystem, który pozwala zarówno na odszyfrowanie przez komputer ludzkiej mowy, jak i wygenerowanie odpowiedzi również w interfejsie głosowym.

Do budowy ASR wykorzystywane są często sieci neuronowe.

Rozpoznawanie mowy w praktyce

Z systemów rozpoznawania mowy korzystają najpopularniejsi asystenci głosowy: Asystent Google, Alexa, Cortana, Siri. Również voiceboty funkcjonujące na usługach biznesu działają dzięki między innymi tej technologii.

Polecane źródła: K. Kuligowska, P. Kisielewicz, A. Włodarz: Wady i ograniczenia systemów rozpoznawania mowy.