Czym jest automatic speech recognition (ASR)? Definicja.
Automatic speech recognition (ASR) oznacza automatyczne rozpoznawanie mowy przez program komputerowy. Jest to interdyscyplinarna dziedzina nauki korzystająca zarówno ze zdobyczy informatyki, jak i lingwistyki. Główną ambicją tej dziedziny jest rozwijanie metodologii i technologii umożliwiających komputerom rozpoznawanie i tłumaczenie języka mówionego. W praktyce więc zdania wypowiadane przez człowieka zamienia na tekst.
ASR jest dzisiaj niezbędną technologią działania głosowych asystentów (voicebotów) razem z takimi technologiami jak m.in. STT (speech to text) oraz TTS (text-to-speach) tworzą spójny ekosystem, który pozwala zarówno na odszyfrowanie przez komputer ludzkiej mowy, jak i wygenerowanie odpowiedzi również w interfejsie głosowym.
Do budowy ASR wykorzystywane są często sieci neuronowe.
Rozpoznawanie mowy w praktyce
Z systemów rozpoznawania mowy korzystają najpopularniejsi asystenci głosowy: Asystent Google, Alexa, Cortana, Siri. Również voiceboty funkcjonujące na usługach biznesu działają dzięki między innymi tej technologii.
Polecane źródła: K. Kuligowska, P. Kisielewicz, A. Włodarz: Wady i ograniczenia systemów rozpoznawania mowy.