DeepNash blefuje i wygrywa z ludźmi w Stratego, grze o większej liczbie stanów niż go

| Technologia
Scouse Smurf, Flickr

Sztuczna inteligencja firmy DeepMind, która jako pierwsza pokonała człowieka w go, nauczyła się blefować w strategicznej grze planszowej Stratego. Co więcej, potrafi wygrać z człowiekiem grę, która ma znacznie więcej możliwych scenariuszy niż go czy poker. Najbardziej zaskakujący był dla nas fakt, że DeepMind był w stanie poświęcić wartościowe zasoby, by zdobyć informację o ustawieniu przeciwnika i jego strategii, stwierdzają twórcy algorytmu.

Celem Stratego jest zdobycie flagi przeciwnika. Każdy z graczy ma do dyspozycji 40 pionków, które umieszcza na planszy o wymiarach 10x10 tak, by przeciwnik nie widział rang – czyli siły – żadnego z nich. Jest to więc gra, w której – w przeciwieństwie do go czy szachów – nie wszystkie informacje o przeciwniku są znane. Dodatkowym wyzwaniem dla sztucznej inteligencji jest fakt, że w Stratego istnieje olbrzymia liczba możliwych stanów gry.

W 1996 roku Deep Blue wygrał w szachy z Kasparowem, stając się pierwszym komputerem, który zwyciężył z szachowym mistrzem świata. Musiało minąć 20 lat zanim komputery – a konkretnie sztuczna inteligencja firmy DeepMind o nazwie AlphaGo – wygrała z mistrzem w go. Pokonanie człowieka w go zajęło maszynom tyle czasu, gdyż go wymaga znacznie większej mocy obliczeniowej. Liczba możliwych stanów gry w go wynosi aż 10350, podczas gdy w szachach jest to 10123. Tymczasem na pokonanie człowieka w Stratego nie musieliśmy czekać tak długo. Wystarczyło 6 lat, by DeepNash stał się jednym z 3 najlepszych graczy na największej online'owej platformie Stratego, Gravon. Liczba możliwych stanów gry w Stratego wynosi 10535.

Poziom gry DeepNasha był dla mnie zaskoczeniem. Nigdy nie słyszałem o maszynie, która w Stratego osiągnęłaby poziom potrzebny do pokonania doświadczonego gracza, mówi Vincent de Boer, były mistrz świata w Stratego i jeden z autorów artykułu opisującego osiągnięcia DeepNasha.

DeepNash uczył się grać w Stratego rozgrywając  5,5 miliarda partii. Nie korzystał przy tym z doświadczeń ludzi, ani nie był trenowany do starcia z konkretnym przeciwnikiem. Sztuczna inteligencja nie próbuje przeanalizować wszystkich możliwych scenariuszy, byłoby to nie możliwe. Zamiast tego postępuje tak by – zgodnie z ekonomiczną teorią gier – uzyskać jak największą korzyść. Optymalna strategią jest taka, która gwarantuje co najmniej 50% zwycięstw w przypadku walki z idealnym przeciwnikiem, nawet gdy ten wie, co DeepNash planuje.

W tej chwili DeepNash rozegrał 50 partii z ludźmi, wygrywając 84% z nich i stając się jednym z trzech najlepszych graczy na platformie Gravon. Jeszcze lepiej radzi sobie z innymi botami grającymi w Stratego. Pokonuje je w 97% przypadków i wygrywa z takimi, które dotychczas wygrywały podczas Computer Stratego World Championship.

Stratego sztuczna inteligencja blef