Technologia

Jakie są różne techniki rozpoznawania mowy?

Do przechwytywania słów mówionych i konwertowania danych, które mogą używać oprogramowania, używanych jest kilka technik rozpoznawania mowy.Istnieją trzy szerokie sposoby analizy mowy w celu ustalenia, co się mówi.Pierwsza nazywa się mowa dyskretna, co oznacza, że jedno słowo jest wypowiadane na raz.Druga jest znana jako powiązana mowa, a słowa należy wypowiedzieć w pewien sposób, aby je zrozumieć.Wreszcie, istnieje ciągła mowa, taka jest to, jak większość ludzi normalnie mówi.

Najczęstszym algorytmem stosowanym do wszystkich rodzajów technik rozpoznawania mowy jest ukryty model Markowa (HMM).System ten obejmuje duże drzewa danych fonemów lub podstawowe dźwięki i sylaby, które są podzielone przez prawdopodobieństwo statystyczne jednego dźwięku po drugim.Porównując każdy fonem z węzłem w drzewie danych dźwięków, faktyczne ukończone słowo można określić z wysoką wskaźnikiem dokładności w stosunkowo krótkim okresie.Izocjacja, gdzie zaczyna się słowo i kończy się.To zadanie komplikuje szum tła w pokoju i fakt, że niektóre sylaby mają podpis dźwiękowy, który przypomina przerwę między słowami.Z tego powodu dyskretne i powiązane techniki rozpoznawania mowy są najdokładniejsze.

Kolejnym czynnikiem oddzielającym różne techniki rozpoznawania mowy jest kwestia słownictwa oprogramowania.Oprogramowanie, które interpretuje mowę, może mieć bardzo ograniczone słownictwo o wysokiej dokładności, albo duże słownictwo, które należy dopasować do indywidualnych wzorców mowy określonego użytkownika.Gdy program używa metody montażu słów HMM, im mniej liczby rozumianych słów, tym bardziej dokładny może być program.Jest to metoda, którą najbardziej zautomatyzowane systemy telefoniczne używają do rozszyfrowania liczb lub odpowiedzi na pytania.

Techniki rozpoznawania mowy, które rozumieją duże słownictwo, są zwykle zaprojektowane do interakcji z bardzo niewielką lub tylko jednym użytkownikiem.Wynika to z faktu, że program musi zostać przeszkolony w celu zrozumienia wzorców mowy osoby mówienia.Szkolenie obejmuje czytanie gotowych akapitów tekstu do oprogramowania.Czytane słowa są znane, więc program jest w stanie zbudować model statystyczny fonemów specyficznych dla użytkownika.Daje to programowi znacznie większą szansę na zrozumienie użytkownika, ale może także utrudnić programom zrozumienie ludzi, z którymi nie wyszkolił. Najtrudniejszymi technikami rozpoznawania mowy jest interpretacja mowy ciągłej lub naturalnej.Wiele osób ma tendencję do biegania słów i mówi z różnymi prędkościami, więc dokładność programów, które tłumaczą ciągłą mowę, jest niższa niż w przypadku innych metod.Mimo to istnieją programy, które mogą przetłumaczyć ten rodzaj mowy, niektóre z nich stosują rozmytą logikę i sieci neuronowe, aby pomóc rozpoznawać wzorce i izolować słowa.