Wielkie modele językowe (LLM) generują język podobnie jak ludzie
Naukowcy z Uniwersytetu Oksfordzkiego i Allen Institute for AI ze zdumieniem zauważyli, że wielkie modele językowe (LLM) – takie jak używane np. przez ChatGPT – generalizują wzorce językowe podobnie jak ludzie, poprzez analogie a nie ścisłe trzymanie się zasad. Badacze postanowili sprawdzić, na ile prawdziwe jest powszechnie panujące przekonanie, że LLM generują swoje wypowiedzi na podstawie obowiązujących zasad, które wydedukował z danych treningowych. Tymczasem okazało się, że – podobnie jak ludzie – modele językowe posługują się przykładami i analogiami podczas tworzenia nieznanych sobie słów.
Badając, jak LLM generują wypowiedzi naukowcy porównali sposób tworzenia słów przez ludzi ze sposobem tworzenia ich przez model GPT-J. Zadaniem i ludzi i maszyny była zamiana przymiotników w rzeczowniki. W języku angielskim odbywa się ona przez dodanie sufiksu „-ness” lub „-ity”. I tak „happy” zamienia się w „happiness”, a „available” w „availability”. Naukowcy wymyślili 200 przymiotników, takich jak „cormasive” czy „friquish” i poprosili LLM, by zamienił je z rzeczowniki, korzystając ze wspomnianych sufiksów. Odpowiedzi uzyskane od komputera porównano z odpowiedziami otrzymanymi od ludzi oraz z przewidywaniami wiarygodnych modeli poznawczych. Jeden z tych modeli dokonuje generalizacji na podstawie zasad, drugi zaś posługuje się analogiami tworzonymi na podobieństwie do znanych przykładów.
Okazało się, że LLM działa podobnie jak ludzie, posługuje się analogiami. Tak jak większość osób nie korzysta z zasad, a z podobieństw. Na przykład słowo „friquish” zamienił na „friquishness” na podstawie jego podobieństwa do słów takich jak „selfish”, a z „cormasive” zrobił „cormasivity”, gdyż jest podobne do wyrazów takich jak „sensitive”.
Naukowcy przekonali się też, że dane treningowe mają znaczący wpływ na sposób tworzenie słów przez LLM. Gdy bowiem przeanalizowano jego odpowiedzi na pytania o niemal 50 000 rzeczywiście istniejących wyrazów stwierdzili, że posługując się metodami statystycznymi można z wielką precyzją przewidzieć, jakiej odpowiedzi udzieli LLM. Wyglądało to tak, jakby model językowy przechowywał w pamięci ślad każdego wyrazu, jaki napotkał podczas treningu i gdy napotykał coś nowego, zadawał sobie pytanie „Co mi to przypomina?”.
Uczeni znaleźli też główną różnicę pomiędzy ludźmi a LLM. Ludzie tworzą sobie mentalny słownik, w którym przechowują zestawy wszystkich form danego wyrazu, jaki uważają za znaczący w swoim języku, niezależnie od tego, jak często formy te występują. Potrafimy bardzo łatwo rozpoznać – a raczej osoby anglojęzyczne potrafią rozpoznać – że wyrazy „friquish” czy „cormasive” nie są prawdziwymi słowami, jakich obecnie się używa. Radzimy sobie z takimi potencjalnymi neologizmami tworząc generalizacje na podstawie zróżnicowania słów, jakie przechowujemy w swoich słownikach mentalnych. Tymczasem LLM generalizuje wszystko, co napotkał podczas treningu. Nie tworzy grup czy też zestawów form tego samego wyrazu.
Chociaż LLM potrafią w imponujący sposób generować wypowiedzi, okazało się, że nie myślą aż tak abstrakcyjnie jak ludzie. To prawdopodobnie dlatego potrzebują znacznie więcej danych niż ludzie by nauczyć się języka, mówi profesor Janet Pierrehumbert.
Komentarze (0)