Rozpoznawanie mowy

Rozpoznawanie mowy to technologia umożliwiająca komputerom interpretację ludzkiej mowy, stosowana m.in. do transkrypcji i interakcji z użytkownikami. W przypadku języka polskiego, skuteczność systemów rozpoznawania mowy w 2008 roku wynosiła 5-9 na 10 poprawnie rozpoznanych słów. Jakość ta zależy od algorytmu, wyrazistości mowy oraz scenariusza testowego. Próg akceptowalności dla zastosowań komercyjnych wynosi zazwyczaj 95% poprawności.

Rodzaje rozpoznawania mowy

Segmentacja wypowiedzi:
- Pojedyncze fonemy
- Izolowane słowa
- Łączone słowa
- Mowa ciągła
- Mowa spontaniczna
Czas odpowiedzi:
- Czas rzeczywisty
- Transkrypcja zasobów akustycznych
Zależność od mówcy:
- Zależne od mówcy
- Zależne od grupy mówców
- Niezależne od mówcy
Rozmiar słownika:
- Mały – dziesiątki słów
- Średni – setki słów
- Duży – tysiące słów
- Bardzo duży – dziesiątki tysięcy słów

Historia

Rozwój technologii rozpoznawania mowy sięga lat 50. XX wieku, kiedy to powstały pierwsze urządzenia do rozpoznawania fonemów i słów. W kolejnych dekadach technologia ewoluowała, wprowadzając coraz bardziej zaawansowane modele i algorytmy, takie jak ukryte modele Markowa (HMM) oraz sieci neuronowe. W 2010 roku Google zaprezentował rozpoznawanie mowy dla języka polskiego.

Trudności implementacyjne

Technologia rozpoznawania mowy wciąż napotyka wiele wyzwań, takich jak:

Wysoka zmienność sygnału wejściowego
Problemy z segmentacją i rozumieniem mowy
Niejednoznaczność językowa
Problemy z zakłóceniami sygnału

Algorytmy i modele

Do rozpoznawania mowy wykorzystywane są różne algorytmy, takie jak:

Ukryte modele Markowa (HMM)
N-gram
Sieci neuronowe
Transformata Fouriera
Analiza cepstralna

Zastosowania

Technologia rozpoznawania mowy znajduje zastosowanie w:

Sterowaniu urządzeniami
Transkrypcji mowy ciągłej na tekst
Mówiących systemach dialogowych
Translacji między językami naturalnymi

Zastosowania dla przedsiębiorstw

Firmy, zwłaszcza w branży obsługi klienta, korzystają z rozpoznawania mowy do optymalizacji procesów obsługi, co prowadzi do zwiększenia satysfakcji klientów.

Standaryzacje międzynarodowe

Trwają prace nad standaryzacją interfejsów API i języków opisu danych dla silników rozpoznawania mowy, prowadzone przez takie instytucje jak Microsoft i W3C.

Rozpoznawanie mowy polskiej

W Polsce prowadzone są różne projekty badawcze i wdrożeniowe, których celem jest rozwój technologii rozpoznawania mowy, w tym systemy dla medycyny oraz prawa.