Sztuczna inteligencja wygrała w wieloosobowym pokerze. Padła ostatnia granica

| Technologia
Images_of_Money, CC

Przed dwoma laty program Libratus wygrał w pokera z czterema zawodowcami. Wielodniowy turniej był rozgrywany w konwencji jeden na jednego, a ludzie ponieśli sromotną klęskę. Dla sztucznej inteligencji był to olbrzymi krok naprzód, jednak nawet współtwórca Libratusa, profesor Tuomas Sandholm, nie wierzył, by SI poradziła sobie jednocześnie z większą liczba graczy. Uczony właśnie udowodnił sam sobie, że się mylił.

Sandholm jest współautorem algorytmu o nazwie Pluribus, który właśnie wygrał z sześcioma zawodowcami w nielimitowany Texas Hold'em. Nie sądziłem, że stanie się to możliwe za mojego życia, stwierdził uczony.

Dotychczas sztuczna inteligencja coraz lepiej radziła sobie w grach z ludźmi, ale były to rozgrywki jeden na jeden lub drużynowe, dwóch przeciwko dwóm. SI zadziwiała swoimi osiągnięciami w warcabach, szachach, Go oraz pokerze. Wszystkie mecze były rozgrywkami o sumie zerowej. Jedna strona wygrywała, druga przegrywała. Jednak gra przeciwko sześciu osobom to zupełnie inny poziom trudności. Bardziej przypomina to rzeczywiste sytuacje, gdy trzeb podejmować decyzje nie znając zasobów (kart) i procesu podejmowania decyzji przez przeciwników. To pierwszy poważny sprawdzian możliwości SI w sytuacji innej niż pojedynek lub walka dwóch drużyn i gra o sumie zerowej. Po raz pierwszy wyszliśmy poza ten paradygmat i wykazaliśmy, że SI dobrze radzi sobie w takich sytuacjach, mówi współtwórca Pluribusa Noam Brown, zatrudniony w Facebook AI Research.

Pluribus zaczynał od rozgrywki, w której brał udział 1 człowiek i 5 niezależnych wersji Pluribusa. Z czasem doszedł do poziomu, w którym mógł wygrać z 5 profesjonalistami jednocześnie. Przeciwnikami sztucznej inteligencji było 15 zmieniających się zawodowych graczy, z których każdy wcześniej wygrał w pokera co najmniej milion dolarów. Rozegrano 10 000 rozdań, a turniej trwał 12 dni.

Co prawda Pluribus nie odniósł nad ludźmi tak miażdżącego zwycięstwa jak Libratus, jednak jego osiągnięcia zaskoczyły ekspertów. Istniały pewne dowody wskazujące, że techniki SI wykorzystane w pokerowym pojedynku powinny działać też przy trzech graczach, jednak nie było jasne, czy można je zastosować do większej liczby przeciwników grających na najwyższym poziomie. To naprawdę sensacyjna wiadomość, że sprawdziły się one w meczu sześcioosobowym. To ważny kamień milowy, mówi profesor Michael Wellman z University of Michigan.

Pluribus, podobnie jak Libratus, uczył się pokera rozgrywając wiele symulowanych pojedynków sam ze sobą. Jak informują jego twórcy, sukces programu leży w zastosowaniu „wyszukiwania o ograniczonej głębokości”. Mechanizm ten pozwala SI na obliczenie dla wszystkich przeciwników kilku ruchów naprzód i opracowaniu na tej podstawie najlepszej strategii. Tego typu taktykę wykorzystuje wiele programów grających w pokera, jednak jej użycie w przypadku rozgrywki sześcioosobowej wymaga kolosalnych ilości pamięci do przechowania wszystkich możliwych ruchów wszystkich przeciwników oraz wszystkich możliwych zakładów. Libratus radził sobie z tym problemem biorąc pod uwagę jedynie dwie ostatnie rundy podbić. Jednak i tak wymagało to użycia 100 procesorów dla gry dwuosobowej.

Pluribus działał nieco inaczej. Brał pod uwagę tylko cztery możliwe zachowania przeciwnika. Jedno to obliczony najbardziej prawdopodobny ruch, drugie w którym przeciwnik skłania się ku pasowi, trzecie gdy przeciwnik raczej wybiera sprawdzenie oraz ostatnie, gdy przeciwnik raczej podbija stawkę. Dzięki temu możliwe było znaczące ograniczenie wymaganych zasobów liczeniowych. Wykorzystane algorytmy były niezwykle wydajne. Dość wspomnieć, że podczas pokazu na żywo Pluribus był uruchomiony na maszynie zawierającej jedynie dwa procesory i 128 GB RAM. To zadziwiające, że w ogóle to się udało i że udało się bez wykorzystywania mocy obliczeniowej procesorów graficznych i innego ekstremalnie wydajnego sprzętu, cieszy się Sandholm. Dość tutaj wspomnieć, że program AlphaGo, który w 2016 roku pokonał w Go Lee Sedola korzystał z 1920 CPU i 280 GPU.

Specjaliści z Carnegie Mellon University i Facebooka, którzy stworzyli Pluribusa, opublikują jedynie jego pseudkod, czyli opis kroków niezbędnych do stworzenia podobnego programu. Zdecydowali jednak, że nie upublicznią prawdziwego kodu, by nie ułatwiać rozpowszechniania oprogramowania do gry w pokera. Mogłoby to bowiem zniszczyć zarówno tę dziedzinę działalności gospodarczej jak i społeczność graczy.

Wykorzystany algorytm SI może znaleźć zastosowanie wszędzie tam, gdzie trzeba podjąć decyzje bez pełniej wiedzy o tym, co robią lub myślą inni. Przyda się w takich dziedzinach jak cyberbezpieczeństwo, handel, negocjacje biznesowe czy ustalanie cen. Zdaniem Sandhloma może też pomóc podczas zbliżających się wyborów prezydenckich w USA, gdyż pomoże kandydatom na określenie poziomu wydatków potrzebnych do zwycięstwa w kluczowych stanach. Sandholm założył już trzy firmy, które będą świadczyły usługi z wykorzystaniem SI na rynkach biznesowych czy wojskowych,.

Pluribus Libratus poker sztuczna inteligencja