Sztuczna inteligencja zdaje test Turinga lepiej niż ludzie

| Technologia
Postaw mi kawę na buycoffee.to
Gabriele Malaspina, Unsplash

W 1950 roku na łamach pisma Mind Alan Turing zaproponował prosty eksperyment myślowy – jeśli człowiek rozmawiający z maszyną nie potrafi odróżnić jej od drugiego człowieka, czy możemy stwierdzić, że zdolności maszyny dorównują zdolnościom umysłowym człowieka? Przez dekady test Turinga był bardziej filozoficzną prowokacją niż realnym wyzwaniem technicznym. Badania opublikowane właśnie na łamach PNAS pokazują, że to się zmieniło, i to w sposób, który powinien nas zastanowić.

Naukowcy z Uniwersytetu Kalifornijskiego w San Diego (UCSD) przeprowadzili serię eksperymentów. Ich schemat wiernie odwzorowywał oryginalną wersję testu Turinga: uczestnik–przesłuchujący rozmawiał jednocześnie za pośrednictwem ekranu komputerowego z dwoma rozmówcami – człowiekiem i systemem AI – a następnie musiał wskazać, kto jest człowiekiem. Łącznie przeanalizowano ponad tysiąc takich rozmów z udziałem studentów UCSD oraz uczestników rekrutowanych przez platformę Prolific.

Wyniki są zaskakujące. GPT-4.5, wyposażony w odpowiednio skonstruowany prompt „osobowościowy", był wskazywany jako człowiek w 73% przypadków – znacznie częściej niż wskazywany był prawdziwy ludzki uczestnik. Model LLaMA-3.1-405B przy tym samym prompcie osiągnął wynik 56%, a więc był statystycznie nieodróżnialny od wyników prawdziwych ludzi. Dla porównania klasyczny chatbot ELIZA z lat 60. oraz GPT-4o, pozbawione specjalnego promptu, były identyfikowane jako ludzkie odpowiednio w 23% i 21% przypadków.

Kluczem do sukcesu okazało się odpowiednie instruowanie modeli. Prompt „osobowościowy" polecał modelowi wcielić się w młodą, nieco introwertyczną osobę znającą się na kulturze internetowej i posługującą się slangiem. Bez tych wskazówek te same modele radziły sobie znacznie gorzej – GPT-4.5 bez promptu był wskazywany jako człowiek zaledwie w 36% przypadków. Modele mają zdolność do bycia ludzkimi, ale samodzielnie nie potrafią stwierdzić, co to znaczy być ludzkim – komentuje współautor badania, profesor Ben Bergen.

Co ciekawe, przesłuchujący niemal wcale nie sprawdzali wiedzy logicznej czy matematycznej rozmówców, a przecież właśnie takie pytania Turing wyobrażał sobie jako oś swojego testu. Zaledwie 12% uczestników zadawało pytania dotyczące wiedzy i rozumowania. Zdecydowanie częściej badano społeczne i emocjonalne aspekty rozmowy – czy rozmówca używa języka w ludzki sposób, czy ma wyrazistą osobowość. Maszyny zdały egzamin właśnie tam, gdzie tego nie oczekiwano: w sferze humoru, drobnych błędów i naturalnej nieformalności.

Badanie niesie poważne implikacje praktyczne. Ani wiedza o tym, jak działają duże modele językowe, ani częste korzystanie z chatbotów nie poprawiały skuteczności rozpoznawania AI – nikt nie był na to odporny. To zaś oznacza, że obecnie gdy wchodzimy w interakcje z nieznajomymi w sieci, nie możemy być pewni czy rozmawiamy z człowiekiem, czy modelem językowym – ostrzega Cameron Jones, główny autor badania.

Test Turinga przestał być abstrakcyjnym konstruktem umysłowym. Jest kolejnym elementem pokazującym, że twierdzenie o wyjątkowości H. sapiens coraz trudniej jest utrzymać.

test Turinga sztuczna inteligencja człowiek wielki model językowy