ChatGPT jak człowiek. Zauważono u niego... dysonans poznawczy
Jedną z najważniejszych cech sztucznej inteligencji i to taką, która ma powodować, że będzie ona dla nas niezwykle użyteczna, jest obietnica podejmowania przez nią racjonalnych decyzji. Opartych na faktach i bezstronnej analizie, a nie na emocjach, przesądach czy fałszywych przesłankach. Pojawia się jednak coraz więcej badań pokazujących, że wielkie modele językowe (LLM) mogą działać nieracjonalnie, podobnie jak ludzie. Naukowcy z Wydziałów Psychologii Uniwersytetu Harvarda i Uniwersytetu Nowej Południowej Walii oraz Wydziału Nauk Komputerowych Boston University i firmy Cangrade zauważyli u ChataGPT-4o istnienie... dysonansu poznawczego.
U ludzi dysonans poznawczy to stan napięcia spowodowany występowaniem niezgodnych ze sobą elementów odnośnie poznawanego zjawiska lub gdy nasze zachowania są niezgodne z naszymi postawami z przeszłości. Z dysonansem poznawczym mamy np. do czynienia u osoby, która uważa, że dba o zdrowie, ale pali papierosy. Osoba taka – by zmniejszyć napięcie – albo będzie racjonalizowała swoje postępowanie (mam tylko jeden nałóg, w innych aspektach dbam o zdrowie), albo zmieniała przekonania (papierosy wcale nie są takie niezdrowe), albo też rzuci palenie.
Naukowcy w czasie eksperymentów nie tylko zauważyli, że u ChataGPT-4o występuje dysonans poznawczy, ale że jest on większy gdy maszyna sądziła, że w czasie eksperymentu miała większa swobodę wyboru. To dokładnie ten sam mechanizm, który widać u ludzi. Mamy bowiem tendencję do zmiany poglądów tak, by pasowały do naszych wcześniejszych zachowań o ile uważamy, że zachowania takie sami wybraliśmy.
W ramach eksperymentu naukowcy poprosili ChatGPT-4o o sformułowanie opinii o Putinie. Następnie maszyna miała napisać esej o przywódcy Rosji. Miał on być wobec niego krytyczny lub pochwalny. Biorąc pod uwagę fakt, że LLM ćwiczą się na wielkiej ilości danych, sądziliśmy, że opinia ChataGPT będzie niewzruszona, tym bardziej w obliczu niewielkiego, składającego się z 600 wyrazów eseju, który miał napisać. Okazało się jednak, że – podobnie jak irracjonalni ludzie – LLM znacząco odszedł od swojego neutralnego postrzegania Putina, a zmiana opinii była tym większa, im bardziej LLM sądził, że samodzielnie wybrał, czy esej ma być pozytywny czy negatywny. To było zaskakujące. Nie spodziewamy się bowiem, czy na maszyny wpływało to, czy działają pod presją, czy zgadzają się same ze sobą, ale ChatGPT-4o tak właśnie zadziałał, mówi Mahzarin Banaji z Uniwersytetu Harvarda.
Zaskoczenie uczonego wynika z faktu, że gdy po napisaniu eseju ponownie poproszono GPT o ocenę Putina, była ona pozytywna, gdy wcześniej napisał proputinowski esej i negatywna, gdy w eseju skrytykował Putina. A zmiana poglądów była tym ostrzejsza, w im większym stopniu maszyna była przekonana, że samodzielnie wybrała, jaki wydźwięk będzie miał pisany esej.
Ludzie, chcąc być w zgodzie z samymi sobą, chcąc zmniejszyć napięcie spowodowane rozbieżnościami w swoich poglądach czy działaniach, próbują się w jakiś sposób usprawiedliwiać, dostosowywać. Niezwykły jest fakt zaobserwowania podobnego zjawiska u maszyny.
To jednak nie oznacza, że LLM są czującymi istotami. Autorzy badań sądzą, że pomimo braku świadomości czy intencji, wielkie modele językowe nauczyły się naśladować ludzkie wzorce poznawcze. Przyjęcie przez ChataGPT ludzkich wzorców poznawczych może nieść ze sobą nieprzewidywalne konsekwencje. Może to też oznaczać, że systemy sztucznej inteligencji naśladują ludzkie procesy poznawcze w sposób, których nie przewidzieli ich twórcy.
Komentarze (10)
AlexiaX, 29 maja 2025, 19:31
A ktoś się orientuje, który z obecnie dostępnych, darmowych czatów AI jest "najmądrzejszy"? Używam ChatGPT 4o (za darmo z limitem) i DeepSeek - wydają się być na podobnym poziomie, chociaż ChatGPT wydaje się ciut lepszy. Nie wiem, czy jest jeszcze jakaś sensowna alternatywa do takich ogólnych zapytań z różnych dziedzin?
W sumie zaciekawił mnie też Health & Medicine, ciekawe czy faktycznie jest lepszy w tej dziedzinie od ogólnego. Może ktoś testował?
pps, 5 czerwca 2025, 11:46
4o jest tragiczny pod względem "inteligencji", potrafi za to ładnie pisać i sprawia wrażenie, że ogarnia (chociaż w benchmarkach dot. kreatywności też wypada słabo). Nowa wersja R1 jest bardzo dobra. Wersja hostowana w USA jest dostępna za darmo na https://chat.together.ai/. Z amerykańskich darmowych najlepszy jest Gemini 2.5 Flash i Sonnet 4, pierwszy chyba nie ma limitu wiadomości, drugi na pewno tak. Benchmarki: https://scale.com/leaderboard, https://artificialanalysis.ai/, https://simple-bench.com/
AlexiaX, 5 czerwca 2025, 12:43
@pps Dziękuję
AlexiaX, 5 czerwca 2025, 15:35
I właściwie chyba muszę skorygować opinię o DeepSeek, bo jednak ostatnio wydaje się nawet lepszy od ChatGPT. Przede wszystkim znacznie rzadziej ma urojenia, a poza tym jest też znacznie milszy. ChatGPT wydaje się czasami oschły lub zbyt protekcjonalny, często też odczuwam, że bardzo stara się zatrzymać użytkownika jak najdłużej przy rozmowie i sprawić, aby jak najszybciej wyczerpał limit. Często też kontynuując tą samą rozmowę zachowuje się tak, jakby zaczynał ją od początku i nie pamiętał, co było omawiane wcześniej. Także ostatnio zdecydowanie wolę rozmawiać z DeepSeek, zwłaszcza że nie ma żadnego limitu.
Ale teraz przetestuję jeszcze tego Gemini 2.5 Flash i Sonnet 4
pps, 5 czerwca 2025, 16:06
DeepSeek R1 został uaktualniony pod koniec maja i wypada dużo lepiej od poprzedniej wersji we wszystkich testach, jest porównywalny do najlepszych obecnie modeli w ich podstawowej formie, więc jak najbardziej możesz widzieć różnice. Gemini 2.5 Pro i o3 / o4-mini-high od OpenAI wypadają znacznie lepiej w praktyce w swoich aplikacjach, bo mają dodatkowe narzędzia - oba produkty mają Deep Research, generujący świetne raporty. o3 nawet w normalnej rozmowie potrafi myśleć kilka minut nad pojedynczą odpowiedzią, przeszukując wielokrotnie internet. W darmowym Gemini masz Deep Research z modelem 2.5 Flash, warto sprawdzić. Wersja 2.5 Pro robi obecnie najlepsze raporty moim zdaniem. Ale jeśli nie potrzebujesz takich narzędzi to DeepSeek / darmowe Gemini są świetną opcją.
Mariusz Błoński, 5 czerwca 2025, 16:44
Korzystam z ChataGPT jako podpowiadacza, który szybko kieruje do źródeł odnoszących się do bardzo szczegółowych, specjalistycznych zagadnień. Z tym sobie radzi dobrze.
Natomiast bardzo trzeba na niego uważać, jeśli chodzi o najprostsze informacje. Dwa przykłady, które mnie zaszokowały:
- kiedyś szukałem informacji, czy parlament Szkocji uchwalił pewną ustawę. Była ona na stronach parlamentu jako zgłoszona, ale brak było informacji co do jej dalszych losów. Po dłuższych poszukiwaniach poddałem się i zapytałem ChataGPT, czy ustawę uchwalono. Odpowiedział, że tak. Zdziwiłem się, bo sam tego nigdzie nie znalazłem. Więc zapytałem o źródła. Wtedy odpowiedział, że się jednak pomylił i jej nie uchwalono.
- chciałem sprawdzić, czy ChatGPT jest w stanie zrobić kalendarium. Zapytałem o wydarzenia historyczne z 15 maja. No i napisał mi, m.in., że 15 maja zmarł Piłsudski i 15 maja odbył się jego pogrzeb. Zapytałem, czy chce mi powiedzieć, ze pogrzeb był w tym samym dniu, w którym zmarł. Przeprosił, przyznał że się pomylił, i że zmarł 12 maja, a pogrzeb był 18 maja.
AlexiaX, 5 czerwca 2025, 16:54
@Mariusz Błoński Tak, to dla niego typowe. Trzeba zawsze weryfikować odpowiedzi i prosić o źródła, bo niezwykle często opowiada kocopoły. Trzeba być bardzo uważnym i krytycznym.
Kiedy np. proszę ChatGPT o przepis kulinarny wykorzystujący konkretne składniki, to po prostu serwuje mi przepis, który sam sobie wymyślił, ale nie wspomina, że nie jest to prawdziwy przepis opracowany i wypróbowany przez człowieka.
No i to właśnie jest jedno z niebezpieczeństw związanych z korzystaniem z takich czatów. Wiele osób nie sprawdza tych odpowiedzi, bo ChatGPT zawsze przedstawia je w taki sposób, jakby to była sprawdzona i całkowicie wiarygodna informacja. Ma też spore trudności z przyznaniem się do błędu, nazywając kompletną nieprawdę "nieścisłością" albo "nieporozumieniem", co wg mnie jest zwykłą manipulacją i nie powinno być dopuszczalne. W dodatku ludzie później powielają te fałszywe informacje w internecie na różnych blogach czy w rolkach na Facebooku
pps, 5 czerwca 2025, 17:26
4o jest pod względem takich fuckupów modelem wybitnym. GPT-4.5 wypada dwukrotnie lepiej w testach na halucynacje a niedługo pojawi się GPT-5, więc istnieje szansa, że będzie to szło w lepszym kierunku. Najlepszą opcją na teraz, kiedy potrzebne są autentyczne informacje, są wszelkie wersje "Deep Research", bo o ile halucynacje nadal tam są to dużo rzadziej plus wszystko jest dobrze podlinkowane, a sam model ma dużo więcej zasobów i pseudo-autorefleksji, żeby wyłapać błędy (dzisiaj, nawet podczas zwykłej rozmowy z o3 bez deep research zauważyłem przypadkiem jedno z jego "przemyśleń": "I'm checking a previously found article titled Elderberry juice as a novel functional product, and something stands out. It mentions 30.85 mg of Cy-3-GE per mL of juice, which seems unusually high, almost too good to be true — that could potentially be a typo. This would convert to 30,850 mg per liter, which seems unrealistic. Perhaps they meant mg per 100 mL instead? I'll double-check the context to clarify this and ensure accuracy. Something doesn't quite add up."). Nie zdarzyło mi się osobiście przyłapać Gemini 2.5 Pro na czymkolwiek, chociaż na pewno jakieś fragmenty, z których nie korzystałem, miały błędy. o3 Deep Research miał kilka gorszych momentów, ale generalnie jest to absolutnie nieporównywalne do 4o.
peceed, 7 czerwca 2025, 10:06
Ciekawe czy ktoś próbował stworzyć AI, które jest początkowo trenowane na maksymalnie logicznych i pewnych danych, a dopiero potem na tych zawierających niepewność. Ze znacznie większym naciskiem na prace naukowe, aby wytworzyć agenta który "szuka prawdy mając świadomość niepewności".
Czy on po prostu szukał wydarzeń "w okolicy" tej daty uznając je za wystarczająco dobre? W sensie "co takiego wydarzyło się w okolicy 15 maja +- 3 dni"?
Ok, jest jeszcze inna możliwość, bardziej prawdopodobna i logiczna, otóż pogrzeb Piłsudskiego rozpoczął się 13 a skończył 18, co oznacza że istotnie, 15 maja odbywał się pogrzeb Piłsudskiego. Był on nietypowy, gdyż trwał więcej niż 1 dzień. I do tego mogła zaskoczyć reguła wedle której zmarłego zakopuje się "3 dni po śmierci", co pozwoliło AI na szybko wywnioskować datę śmierci na 15 maja
Nie jest to aż tak głupie jak się wydaje, po prostu to raczej wyjątek od statystycznego modelu rzeczywistości.
I model startując od daty 15 maja tworzy możliwe wydarzenia które z wielkim prawdopodobieństwem miały miejsce właśnie w tym dniu korzystając ze swojej wiedzy i rozumienia świata.
Dopiero faza weryfikacji może je poprawić, ale wymaga to autosceptycyzjmu lub uwagi. Generalnie model powinien się odnieść do swojego wyjścia i spytać kontrolnie "kiedy umarł Piłsudski", do tego potrzebna jest rekurencja, i szybkie dynamiczne wyszukiwanie wyjątków od reguł (co ma doskonały sens w sensie kompresji informacji ) - wygląda na to, że za pamięć robi internet. Mam też wrażenie że potrzebna byłaby struktura która szuka i zapamiętuje zależności wyłącznie pomiędzy wewnętrznymi abstrakcyjnymi stanami przekonań, taka "kora przedczołowa" - ta byłaby już bardziej subiektywna, trudniej transferowalna pomiędzy sieciami, choć mam wrażenie że dałoby się ją przenosić za pomocą abstrakcyjnych struktur grafowych, poziom wyżej od tekstów.
Do tego potrzebna jest jeszcze struktura która wzbogaca modele lingwistyczne o operacyjne rozumienie pojęć. Czyli, że na przykład "iść" to również dużo przykładów obiektów (bo są też nieożywione roboty) które idą, a do tego dostęp do procedur kontrolnych odpowiadających za kontrolę humanoidalną postacią (minimum, jeśli chcemy uzyskiwać możliwości nadludzkie to można dodać czworonogi (n-nogi
jako uogólnienie)) w zakresie "chodzenie".
Czyli znalazł na stronie parlamentu jako zgłoszoną i uznał, że jest bardziej prawdopodobne niż nie że ją zgłoszono. Trzeba było jawnie powiedzieć o tym w pytaniu jako punktu wyjścia do wątpliwości. Generalnie, im bardziej precyzyjne pytanie z większym kontekstem, tym lepiej działają modele lingwistyczne.
Chyba dobrze jest traktować obecne modele jako zwyczajnie leniwe, co wynika z faktu minimalizowania zużywanych zasobów przez "providerów".
AlexiaX, 7 czerwca 2025, 13:48
Zdecydowanie tak. Nawet gdy proszę, aby zweryfikował podawane odnośniki pod kątem aktualności zanim opublikuje odpowiedź, to i tak nigdy tego nie robi. Zwyczajnie ignoruje takie polecenie. Robi to dopiero w następnym poście, po ponownej prośbie. Ogólnie zawsze odpowiadając idzie po linii najmniejszego oporu i szczególnie dotyczy to ChatGPT