Słyszy 3 głosy naraz
Humanoidalny robot Asimo ma na swym koncie kolejne ważne osiągnięcie. Tym razem jest w stanie zrozumieć, co mówi każda z 3 wypowiadających się jednocześnie osób. Zdolność tę wykorzystano do wydania werdyktu w popularnej grze kamień, nożyce, papier. W przyszłości Asimo poradzi sobie z większą liczbą mówiących i bardziej skomplikowanymi wypowiedziami (na razie było to tylko jedno słowo).
Robot mógł zostać jurorem dzięki oprogramowaniu HARK, stworzonemu przez 2 Japończyków: Hiroshi Okunę z Uniwersytetu w Kioto oraz Kazuhiro Nakadai z Instytutu Badawczego Hondy w Saitamie.
HARK działa w dwóch etapach. Najpierw za pomocą zestawu umieszczonych wokół głowy i ciała ośmiu mikrofonów stwierdza, skąd dochodzi konkretny głos (źródło dźwięku) i wyizolowuje go z pozostałych. Zanim przejdzie do drugiego etapu, czyli obróbki z wykorzystaniem oprogramowania do rozpoznawania mowy, sprawdza, jak dobrze udało się wyekstrahować żądany dźwięk. Japończycy zaznaczają, że kontrola jakości jest niezwykle istotna, ponieważ dodatkowe odgłosy zaburzają rozpoznawanie mowy. To dlatego przed przystąpieniem do 2. etapu automatycznie blokowane są wszystkie fragmenty, które zawierają w tle dużo szumu z określonego zakresu częstotliwości.
Dzięki HARK w pewnych okolicznościach Asimo już teraz działa lepiej niż człowiek. Nie tylko radzi sobie z efektem cocktail party, tzn. umie się skoncentrować na jednym z wielu głosów, ale także z efektem księcia Shotoku – tj. wsłuchuje się w kilka dźwięków jednocześnie. Według japońskiej legendy, książę Shotoku wysłuchiwał próśb 10 osób jednocześnie – podaje gwoli wyjaśnienia Okuno.
Na razie Asimo nie jest tak dobry, jak arystokrata, ale z trafnością wahającą się w zakresie od 70 do 80% potrafi rozpoznać proste kwestie wypowiadane przez 3 osoby. Gdy wydłużono zdania, odtwarzając eksperymentalnie sytuację składania zamówienia przez trzech klientów restauracji, trafność spadła jednak do 30-40%.
Inni specjaliści zaznaczają, że nowa zdolność robota bazuje na istniejących wcześniej elementach (mikrofony, oprogramowanie do rozpoznawania mowy), ale zostały one twórczo połączone. Działają w maszynie, w dodatku w czasie rzeczywistym i umożliwiają nawiązanie bardziej rozbudowanego kontaktu.
W zeszłym miesiącu Okuno i Nakadai zaprezentowali swoje osiągnięcia na 2008 IEEE International Conference on Robotics and Automation w Pasadenie.
Komentarze (5)
Gość macintosh, 4 lipca 2008, 01:37
Ja dałem radę tylko 2.. kiedyś, chętnie spróbowałbym jeszcze
I myśleli, że nie słucham żadnego z nich(mama+brat). I zepsuli mi zabawę(ciekawe przyjemne uczucie temu towarzyszyło), bo przestali.
A że Asimo tak może.. no cóż: jest tylko robotem.
mikroos, 4 lipca 2008, 02:32
A ten gość jest w stanie wydawać z siebie trzy dźwięki jednocześnie
Gość Guardian, 4 lipca 2008, 09:17
To mogą sobie pogadać, sam na sam, tyle że, dźwięk dochodziłby ciągle z tego samego miejsca.
Może odejdę od tematu, ale ten potrafi śpiewać i i bić rytm http://www.youtube.com/watch?v=zsQt_kl6zRU&feature=related
dirtymesucker, 4 lipca 2008, 09:35
niektórzy ludzie potrafią rozłożyć dźwięk na alikwoty (tony składowe dźwięku - każdy dźwięk składa się tak naprawdę z 16 tonów składowych), co ogólnie nazywa się śpiewem alikwotowym (http://pl.wikipedia.org/wiki/X%C3%B6%C3%B6mej)
oto przykład:
http://www.wrzuta.pl/audio/hSErUi03pj/spiew_alikwotowy
waldi888231200, 4 lipca 2008, 20:18
A niektórzy potrafią rozłożyć siebie
http://ja.tu.tylko.wrzucam.wrzuta.pl/film/52Et8520pc/