Słyszy 3 głosy naraz

| Ciekawostki
Gnsin, GNU FDL

Humanoidalny robot Asimo ma na swym koncie kolejne ważne osiągnięcie. Tym razem jest w stanie zrozumieć, co mówi każda z 3 wypowiadających się jednocześnie osób. Zdolność tę wykorzystano do wydania werdyktu w popularnej grze kamień, nożyce, papier. W przyszłości Asimo poradzi sobie z większą liczbą mówiących i bardziej skomplikowanymi wypowiedziami (na razie było to tylko jedno słowo).

Robot mógł zostać jurorem dzięki oprogramowaniu HARK, stworzonemu przez 2 Japończyków: Hiroshi Okunę z Uniwersytetu w Kioto oraz Kazuhiro Nakadai z Instytutu Badawczego Hondy w Saitamie.

HARK działa w dwóch etapach. Najpierw za pomocą zestawu umieszczonych wokół głowy i ciała ośmiu mikrofonów stwierdza, skąd dochodzi konkretny głos (źródło dźwięku) i wyizolowuje go z pozostałych. Zanim przejdzie do drugiego etapu, czyli obróbki z wykorzystaniem oprogramowania do rozpoznawania mowy, sprawdza, jak dobrze udało się wyekstrahować żądany dźwięk. Japończycy zaznaczają, że kontrola jakości jest niezwykle istotna, ponieważ dodatkowe odgłosy zaburzają rozpoznawanie mowy. To dlatego przed przystąpieniem do 2. etapu automatycznie blokowane są wszystkie fragmenty, które zawierają w tle dużo szumu z określonego zakresu częstotliwości.

Dzięki HARK w pewnych okolicznościach Asimo już teraz działa lepiej niż człowiek. Nie tylko radzi sobie z efektem cocktail party, tzn. umie się skoncentrować na jednym z wielu głosów, ale także z efektem księcia Shotoku – tj. wsłuchuje się w kilka dźwięków jednocześnie. Według japońskiej legendy, książę Shotoku wysłuchiwał próśb 10 osób jednocześnie – podaje gwoli wyjaśnienia Okuno.

Na razie Asimo nie jest tak dobry, jak arystokrata, ale z trafnością wahającą się w zakresie od 70 do 80% potrafi rozpoznać proste kwestie wypowiadane przez 3 osoby. Gdy wydłużono zdania, odtwarzając eksperymentalnie sytuację składania zamówienia przez trzech klientów restauracji, trafność spadła jednak do 30-40%.

Inni specjaliści zaznaczają, że nowa zdolność robota bazuje na istniejących wcześniej elementach (mikrofony, oprogramowanie do rozpoznawania mowy), ale zostały one twórczo połączone. Działają w maszynie, w dodatku w czasie rzeczywistym i umożliwiają nawiązanie bardziej rozbudowanego kontaktu.

W zeszłym miesiącu Okuno i Nakadai zaprezentowali swoje osiągnięcia na 2008 IEEE International Conference on Robotics and Automation w Pasadenie.

Asimo humanoid głosy HARK oprogramowanie słyszeć ekstrahować