Coraz doskonalsze systemy rozpoznawania mowy

| Technologia
Postaw mi kawę na buycoffee.to
Mr.Thomas, CC

Badacze Microsoftu stworzyli najdoskonalszy jak dotąd system rozpoznawania mowy. Podczas testowej rozmowy telefonicznej, podczas której wykorzystano standard ustanowiony przez NIST (Narodowy Instytut Standardów i Technologii), odsetek błędów wyniósł zaledwie 6,3%. To najlepszy jak dotychczas wynik uzyskany dla przemysłowego rozpoznawania mowy. O swoim osiągnięciu badacze informują w artykule "The Microsoft 2016 Conversational Speech Recognition System".

Mimo tak dobrego wyniku specjaliści koncernu z Redmond nie mogą spocząć na laurach. Niedawno inżynierowie IBM-a informowali o systemie rozpoznawania mowy, w którym odsetek błędów wynosi 6,6%. Walka jest więc niezwykle wyrównana.

Warto tutaj wspomnieć, że 20 lat temu, w 1995 roku IBM zaprezentował najdoskonalszy wówczas system rozpoznawania mowy, w którym odsetek błędów wynosił 43%. Do roku 2004 inżynierowe Błękitnego Giganta zmniejszyli go do 15,2%. W ostatnich latach giganci IT sporo inwestują w sieci neuronowe i to właśnie dzięki nim udało się zmniejszyć odsetek błędów do poniżej 10%.

Naukowcy IBM-a oceniają, że odsetek błędów rozpoznawania mowy przez człowieka wynosi około 4%.

Sukces, jakim chwalą się badacze z Microsoftu, stał się możliwy dzięki wykorzystaniu Computational Network Toolkit. Narzędzie to, dzięki zaawansowanym technikom optymalizacji, pozwala na przyspieszenie o cały rząd wielkości szybkości działania algorytmów uczących się. Kluczem do osiągnięcia dobrego wyniku było dobre wykorzystanie przetwarzania równoległego GPU.

system rozpoznawania mowy Microsoft IBM