Rozpoznawanie mowy
Rozpoznawanie mowy to technologia umożliwiająca komputerom interpretację ludzkiej mowy, stosowana m.in. do transkrypcji i interakcji z użytkownikami. W przypadku języka polskiego, skuteczność systemów rozpoznawania mowy w 2008 roku wynosiła 5-9 na 10 poprawnie rozpoznanych słów. Jakość ta zależy od algorytmu, wyrazistości mowy oraz scenariusza testowego. Próg akceptowalności dla zastosowań komercyjnych wynosi zazwyczaj 95% poprawności.
Rodzaje rozpoznawania mowy
- Segmentacja wypowiedzi:
- Pojedyncze fonemy
- Izolowane słowa
- Łączone słowa
- Mowa ciągła
- Mowa spontaniczna
- Czas odpowiedzi:
- Czas rzeczywisty
- Transkrypcja zasobów akustycznych
- Zależność od mówcy:
- Zależne od mówcy
- Zależne od grupy mówców
- Niezależne od mówcy
- Rozmiar słownika:
- Mały – dziesiątki słów
- Średni – setki słów
- Duży – tysiące słów
- Bardzo duży – dziesiątki tysięcy słów
Historia
Rozwój technologii rozpoznawania mowy sięga lat 50. XX wieku, kiedy to powstały pierwsze urządzenia do rozpoznawania fonemów i słów. W kolejnych dekadach technologia ewoluowała, wprowadzając coraz bardziej zaawansowane modele i algorytmy, takie jak ukryte modele Markowa (HMM) oraz sieci neuronowe. W 2010 roku Google zaprezentował rozpoznawanie mowy dla języka polskiego.
Trudności implementacyjne
Technologia rozpoznawania mowy wciąż napotyka wiele wyzwań, takich jak:
- Wysoka zmienność sygnału wejściowego
- Problemy z segmentacją i rozumieniem mowy
- Niejednoznaczność językowa
- Problemy z zakłóceniami sygnału
Algorytmy i modele
Do rozpoznawania mowy wykorzystywane są różne algorytmy, takie jak:
- Ukryte modele Markowa (HMM)
- N-gram
- Sieci neuronowe
- Transformata Fouriera
- Analiza cepstralna
Zastosowania
Technologia rozpoznawania mowy znajduje zastosowanie w:
- Sterowaniu urządzeniami
- Transkrypcji mowy ciągłej na tekst
- Mówiących systemach dialogowych
- Translacji między językami naturalnymi
Zastosowania dla przedsiębiorstw
Firmy, zwłaszcza w branży obsługi klienta, korzystają z rozpoznawania mowy do optymalizacji procesów obsługi, co prowadzi do zwiększenia satysfakcji klientów.
Standaryzacje międzynarodowe
Trwają prace nad standaryzacją interfejsów API i języków opisu danych dla silników rozpoznawania mowy, prowadzone przez takie instytucje jak Microsoft i W3C.
Rozpoznawanie mowy polskiej
W Polsce prowadzone są różne projekty badawcze i wdrożeniowe, których celem jest rozwój technologii rozpoznawania mowy, w tym systemy dla medycyny oraz prawa.
Rozpoznawanie mowy angielskiej
W języku angielskim dostępne są zarówno prototypowe, jak i użytkowe systemy rozpoznawania mowy, takie jak Dragon Naturally Speaking czy Siri.