Nauka ma coraz większy problem z AI. Gwałtowny wzrost fałszywych cytowań w artykułach naukowych

| Ciekawostki
Postaw mi kawę na buycoffee.to
Abdulai Sayni, Unsplash

W ostatnich latach w Polsce miało miejsce kilka spektakularnych przypadków opublikowania artykułów czy książek wzbogaconych przypisami do nieistniejących źródeł naukowych. Jasnym było, że źródła te zostały zmyślone przez wielkie modele językowe. Gdy nieistniejące prace są cytowane przez dziennikarzy i pisarzy, jest to niepokojący sygnał. Gorzej, gdy takie rzeczy zdarzają się w recenzowanych artykułach naukowych. To oznacza, że mamy problem. I jest on coraz bardziej poważny.

Rozwój nauki jest budowany na wcześniejszych osiągnięciach naukowych. Literatura naukowa jest więc w dużej mierze zależna od integralności źródeł. Każde poparte źródłem stwierdzenie oznacza, że nie je ono bezpodstawne, lecz opiera się na solidnych badaniach. Gdy jednak źródła, badania są zmyślane, naukowcy, czytelnicy czy decydenci mogą nie być w stanie zweryfikować twierdzeń padających w tekście.

Fałszywe odniesienia do rzekomych badań mogą trafiać do publikacji czy to przez fałszerstwa popełniane przez autorów artykułów czy też przez bezkrytyczne używanie wielkich modeli językowych. LLM potrafią generować wiarygodnie brzmiące przypisy, wykorzystywać w nich nazwiska szanowanych naukowców oraz poważane magazyny naukowe, odpowiednio dobierać daty rzekomych publikacji, przez co podczas procesu standardowego recenzenckiego trudno jest wychwycić fałszywe cytowania.

Maxim Topaz i Zhihong Zhang z Columbia University oraz ich koledzy z Izraela i Finlandii stworzyli automatyczne narzędzie bazujące – jakżeby inaczej – na AI, za pomocą którego przeskanowali niemal 2,5 miliona recenzowanych artykułów naukowych zaindeksowanych pomiędzy 1 stycznia 2023 roku a 18 lutego 2026 roku w bazie danych PubMed, gromadzącej treści z dziedziny nauk biologicznych i medycyny. W artykułach tych znalazło się łącznie ponad 125 milionów odnośników do źródeł. Odsiali z nich te, które nie posiadały identyfikatora PubMed (PMID). Zostało im w ten sposób 97,1 miliona odwołań, które następnie zostały zweryfikowane przez ich model.

Wśród tych blisko 100 milionów odwołań autorzy badań znaleźli 4046 odniesień do fałszywych, nieistniejących źródeł. Powołali się na nie autorzy 2810 artykułów. Można stwierdzić, że jak na liczbę cytowań i artykułów, nie jest to wiele. Jednak widoczny jest niezwykle groźny trend.

Jeszcze w 2023 roku odwołanie do nieistniejącego źródła naukowego zdarzało się w jednym na 2828 (1:2828) artykułów naukowych. W roku 2025 odsetek ten wynosił już 1:458, a w ciągu pierwszych 7 tygodni 2026 roku wzrósł do 1:277.

Przez cały 2023 rok i w I kwartale roku 2024 kwartalna liczba fałszywych cytowań utrzymywała się na poziomie około 4 na 10 000 artykułów. Od połowy 2024 roku odsetek fałszerstw gwałtownie rośnie, co zbiega się z rozpowszechnieniem się publicznie dostępnych wielkich modeli językowych. Lekarz czy osoba opracowująca wytyczne dla medycyny, nie ma jak dowiedzieć się, że opiera się na nieistniejących badaniach. Znaleźliśmy na przykład artykuł, w którym 18 na 30 odniesień odsyłało do nieistniejących badań. Niektóre z tych rzekomych cytatów zostały zacytowane przez kolejne artykuły i pojawiły się w przeglądach systematycznych, na podstawie których podejmowane są decyzje, stwierdzają autorzy badań.

Dodatkowo Topaz, Zhang i reszta zespołu sprawdzili, co stało się z artykułami, w których znajdują się fałszywe cytowania, czy ktoś wcześniej zwrócił uwagę na nieprawdziwe odniesienia. Okazało się, że nie. W przypadku 2765 artykułów redakcje je publikujące nie podjęły żadnych działań, 2 artykuły zostały wycofane z publikacji, ale nie miało to związku z nieprawdziwymi cytowaniami, a do 43 artykułów dodano erraty, które również nie odnosiły się do fałszywych cytowań.

Szczegóły badań znajdziecie w artykule Fabricated citations: an audit across 2·5 million biomedical papers.

sztuczna inteligencja AI LLM wielkie modele językowe nauka artykuł naukowy fałszywe cytowanie nieistniejące źródło