Sztuczna inteligencja DeepMind robi kolejny krok. Uczy się od podstaw metodą prób i błędów

| Technologia
DeepMind

Firma DeepMind, której system sztucznej inteligencji zdobył rozgłos pokonując mistrza Go, a niedawno zapowiedział rewolucję na polu nauk biologicznych, poszła o krok dalej. Stworzyła system MuZero, który uczy się zasad gry od podstaw, bez żadnych informacji wstępnych. Celem DeepMind jest spowodowanie, by MuZero uczył się tak, jak robi to dziecko, metodą prób i błędów.

MuZero rozpoczyna naukę reguł gry od spróbowania jakiegoś działania. Później próbuje czegoś innego. Jednocześnie sprawdza, czy jego działanie jest dozwolone i jaki jest jego skutek. Do dalszej pracy wybiera te z działań, które przynoszą najlepszy rezultat. W szachach będzie to doprowadzenie do szach-mata, w Pac-Manie zaś połknięcie kropki. Następnie algorytm tak zmienia swoje działania by pożądane rezultaty osiągnąć najniższym kosztem. Taki sposób nauki, poprzez obserwację, jest idealną metodą w przypadku SI. Chcemy bowiem zadać sztucznej inteligencji pytania i poprosić o rozwiązywanie problemów, których nie można łatwo zdefiniować. Ponadto w świecie rzeczywistym, gdzie nie obowiązują stałe i jasne reguły gry, SI co chwila będzie napotykała na przeszkody, z którymi musi sobie poradzić.

Obecnie MuZero uczy się kompresji wideo. W przypadku AlphaZero nauczenie się tego zadania byłoby bardzo kosztowne, mówią autorzy algorytmu. Już teraz zastanawiają się nad wdrożeniem MuZero do nauczenia się jazdy samochodem. Myślą też o zaprzęgnięciu algorytmu do projektowania białek. Przypomnijmy, że siostrzany algorytm AlphaFold udowodnił ostatnio, że świetnie sobie radzi z zawijaniem białek. MuZero mógłby zaś projektować białka od podstaw. Dzięki temu, mając do dyspozycji np. szczegółową wiedzę o wirusie czy bakterii, którą białko ma niszczyć, byłby w stanie zaprojektować nowe lekarstwa.

MuZero, dzięki jednoczesnemu uczeniu się reguł gry i udoskonalaniu swoich działań pracuje znacznie bardziej ekonomicznie, niż jego poprzednicy stworzeni przez DeepMind. Radzi sobie świetnie nawet wówczas, gdy twórcy celowo ograniczą jego możliwości. Podczas nauki zasad Pac-Mana, gdy na każdy rozważany ruch MuZero mógł przeprowadzić nie więcej niż 7 symulacji skutków swoich działań – co jest liczbą zdecydowanie zbyt małą, by rozważyć wszystkie opcje – algorytm i tak całkiem dobrze sobie poradził.

Twórcy MuZero mówią, że taki system potrzebuje sporych mocy obliczeniowych, by nauczyć się zasad. Gdy jednak już je pozna, podejmowanie kolejnych decyzji wymaga już tak niewielu obliczeń, że całe działania mogą być przeprowadzone na smartfonie. Jednak nawet nauka nie jest bardzo wymagająca. MuZero nauczył się od podstaw zasad Pac-Mana w ciągu 2-3 tygodni, korzystając przy tym z jednego GPU, mówi Julian Schrittwieser, jeden ze współautorów algorytmu.

Jednym z elementów powodujących, że wymagania MuZero są nieduże w porównaniu z innymi systemami jest fakt, iż algorytm bierze pod uwagę tylko elementy istotne w procesie podejmowania decyzji. Wiedza, że parasol ochroni cię przed deszczem jest bardziej użyteczna, niż umiejętność modelowania ruchu kropel wody w powietrzu, czytamy w oświadczeniu DeepMind.

Celem twórców MuZero jest spowodowanie, by ich system potrafił odrzucić wszystko to, co w danym momencie nie jest potrzebne, by skupił się na kwestiach istotnych. Mówią tutaj o dziecku, które po zaledwie kilkukrotnym doświadczeniu jest w stanie generalizować wiedzę na dany temat i połączyć np. kroplę wody z potężnym wodospadem, widząc powiązanie pomiędzy nimi.

DeepMind MuZero sztuczna inteligencja metoda prób i błędów