Coraz doskonalsze systemy rozpoznawania mowy
Badacze Microsoftu stworzyli najdoskonalszy jak dotąd system rozpoznawania mowy. Podczas testowej rozmowy telefonicznej, podczas której wykorzystano standard ustanowiony przez NIST (Narodowy Instytut Standardów i Technologii), odsetek błędów wyniósł zaledwie 6,3%. To najlepszy jak dotychczas wynik uzyskany dla przemysłowego rozpoznawania mowy. O swoim osiągnięciu badacze informują w artykule "The Microsoft 2016 Conversational Speech Recognition System".
Mimo tak dobrego wyniku specjaliści koncernu z Redmond nie mogą spocząć na laurach. Niedawno inżynierowie IBM-a informowali o systemie rozpoznawania mowy, w którym odsetek błędów wynosi 6,6%. Walka jest więc niezwykle wyrównana.
Warto tutaj wspomnieć, że 20 lat temu, w 1995 roku IBM zaprezentował najdoskonalszy wówczas system rozpoznawania mowy, w którym odsetek błędów wynosił 43%. Do roku 2004 inżynierowe Błękitnego Giganta zmniejszyli go do 15,2%. W ostatnich latach giganci IT sporo inwestują w sieci neuronowe i to właśnie dzięki nim udało się zmniejszyć odsetek błędów do poniżej 10%.
Naukowcy IBM-a oceniają, że odsetek błędów rozpoznawania mowy przez człowieka wynosi około 4%.
Sukces, jakim chwalą się badacze z Microsoftu, stał się możliwy dzięki wykorzystaniu Computational Network Toolkit. Narzędzie to, dzięki zaawansowanym technikom optymalizacji, pozwala na przyspieszenie o cały rząd wielkości szybkości działania algorytmów uczących się. Kluczem do osiągnięcia dobrego wyniku było dobre wykorzystanie przetwarzania równoległego GPU.
Komentarze (0)