Skip to main content

Co to jest rozpoznawanie głosu?

Rozpoznawanie głosu może odnosić się do jednego z dwóch rodzajów informatyki: identyfikacja głosu kryminalistycznego lub możliwości mowy do tekstu.W tym artykule dotyczy tej ostatniej definicji.

Rozpoznawanie głosu lub rozpoznawanie mowy w tym przypadku jest technologią komputerową, która wykorzystuje wejście audio do wprowadzania danych, a nie klawiatury.Na przykład w mikrofonie daje ten sam wynik, co wpisanie słów ręcznie za pomocą klawiatury.Mówiąc wprost, oprogramowanie do rozpoznawania głosu zostało zaprojektowane z wewnętrzną bazą danych rozpoznawalnych słów lub fraz.Program pasuje do podpisu mowy z odpowiednimi wpisami w bazie danych.

Chociaż przekształcenie mowy w tekst może wydawać się łatwe, jest to niezwykle trudne zadanie.Problem leży w praktycznie nieskończonej wachle indywidualnych wzorców mowy i akcentów, spotęgowanej naturalnej ludzkiej tendencji do wspierania słów.

Ilustracja nieodłącznych wyzwań oprogramowania do rozpoznawania głosu pojawia się na koszulce stworzonej przez badaczy Apple.Koszula odczytuje, pomogłem Apple zniszczyć ładną plażę.Mówiąc na głos, brzmi to, Pomogłem Apple rozpoznać mowę.

Różne modele oprogramowania do rozpoznawania głosu są używane do szeregu aplikacji, od osobistego dyktowania po zautomatyzowane routing połączeń, od pomocy niepełnosprawnej po wydarzenie sportowe i informacyjnenapisy.Każdy model zachowuje się inaczej i ma swoje własne możliwości i granice.

Programy rozpoznawania głosu, które wymagają od użytkownika szkolenia oprogramowania w celu rozpoznania ich konkretnych stylizowanych wzorców mowy, nazywane są systemami zależnymi od głośników.Osoby często używają tego rodzaju programów w domu lub w biurze.E -mail, notatki, litery, dane i tekst można wprowadzić, wypowiadając się w mikrofonie.

Niektóre systemy rozpoznawania głosu, zwane

Dyskretne systemy mowy , wymagają od użytkownika mówienia jasno i powoli oraz oddzielenia słów. Ciągłe mowy Systemy są zaprojektowane w celu zrozumienia bardziej naturalnego sposobu mówienia.

Dyskretne systemy rozpoznawania głosu mowy są szeroko stosowane do routingu obsługi klienta.System jest niezależny od głośnika, ale rozumie tylko małą pulę słów lub fraz.Dzwoniący ma wybór odpowiedzi na pytanie, zwykle z tak lub nie.Po otrzymaniu odpowiedzi system eskaluje dzwoniącego na wyższy poziom.Jeśli dzwoniący odpowiada unikalnej odpowiedzi, zautomatyzowana odpowiedź jest zwykle, przepraszam, nie rozumiałem cię;Spróbuj ponownie, z powtórzeniem pytania i dostępnymi odpowiedziami.Tego rodzaju rozpoznawanie głosu jest również określane jako

Contrined Recognition Contraced. Ciągła mowa jest bardziej wyrafinowaną formą oprogramowania do rozpoznawania głosu, w którym dzwoniący może mówić naturalnie, aby wyjaśnić problem lub żądać usługi.Ten program ma na celu wybieranie kluczowych słów lub fraz i tworzenia najlepiej ggania statystycznego, co chce klient.Mówienie wyraźnie pomaga w rozpoznawaniu głosu w identyfikacji potrzeby.Ten typ systemu ma znacznie bardziej intensywną bazę danych niż dyskretne systemy mowy i jest również określane jako rozpoznawanie języka naturalnego.

Automatyczne rozpoznawanie mowy (ASR) jest modelem rozpoznawania głosu zaprojektowanego do dyktowania.To oprogramowanie różni się od poprzednich modeli tym, że nie stara się zrozumieć, co się mówi, tylko w celu zidentyfikowania słów wypowiedzianych.Ponieważ wiele słów w języku angielskim brzmi podobnie, łatwo popełniają błędy.Jednak główne firmy, takie jak Microsoft, inwestują w rozpoznawanie głosu, a prognoza Bill Gates ma ciągłe zrozumienie mowy do roku 2011. Oprogramowanie ASR często występuje w cyfrowych rejestratorach głosowych.

Dominujący gracze w oprogramowaniu do rozpoznawania głosu były Scansoft i Nuance, z byłą firmą nabywa drugą.Mniejsi gracze to mowa Fonix, Aculab i Verbio, z dużymi korporacjamiPodobnie jak IBM i wspomniany Microsoft, również inwestują w technologię.Chociaż wielu nadal uważa, że więcej kłopotów jest szkolenie oprogramowania i poprawienie błędów niż po prostu korzystanie z klawiatury, nadchodzi czas, gdy oprogramowanie rozpoznawania głosu prawdopodobnie zakończy tę lukę.Rozszerzenie klawiatury o dyskryminującą zdolność do używania mowy prawdopodobnie stanie się powszechna.

Oprogramowanie do rozpoznawania głosu zyskuje na popularności, ponieważ staje się bardziej wyrafinowane.Jest to szczególnie przydatne w biznesie, w którym może zastąpić operatora na żywo, aby leżeć, rozpowszechniać informacje, przyjmować zamówienia i wykonywać inne bardzo przydatne funkcje.Jednak zyskuje również przychylność jako aplikacja komputerowa, pomagana przez znane oprogramowanie, takie jak Scansofts, Dragonnaturallyspakeing i IBMS Viavoice .