Strona główna > Wiadomości > Technologia

A A A

Oto jak sztuczna inteligencja ocenia prace studentów

22 maja 2026, 12:56 | Technologia

Sztuczna inteligencja pisze kod, tłumaczy teksty, diagnozuje choroby ze zdjęć rentgenowskich. Nic dziwnego, że pojawiło się pytanie, czy nie mogłaby też oceniać pisemnych prac studentów, zarówno pisanych w domu, jak i podczas egzaminów na uczelni. W obliczu szybko rosnącej liczby studentów AI wydaje się naturalnym rozwiązaniem. Badacze z Uniwersytetu Cambridge postanowili sprawdzić, czy słusznie.

Projekt OpRaise zgromadził 761 autentycznych prac pisemnych z psychologii napisanych przez studentów trzech uczelni – Cambridge, Nottingham i Manchester Metropolitan – między 2022 a 2025 rokiem. Każda praca była już wcześniej oceniona przez ludzkiego egzaminatora w ramach rutynowej procedury.

Teraz prace te miały zostać ocenione przez trzy czołowe wielkie modele językowe (LLM): Claude Opus 4.6 (Anthropic), GPT-5.4 (OpenAI) i Gemini 3 Flash (Google). Celem projektu było sprawdzenie, na ile ocena wystawiona przez maszynę będzie zgodna z oceną wystawioną przez człowieka. Badacze testowali różne sposoby formułowania poleceń dla AI, od najprostszego („jesteś doświadczonym egzaminatorem") po szczegółowe instrukcje z rubryką oceniania i prośbą o uzasadnienie przed wystawieniem punktów. Szukali konfiguracji, która da najlepsze wyniki. Żadna nie okazała się wystarczająco dobra.

Kluczowym miernikiem była zgodność kategorii oceny przyznanej przez LLM z kategorią przyznaną przez człowieka. W odniesieniu do prac pisanych na Cambridge AI trafiała w 63% przypadków, w Nottingham w 53%, w Manchester Metropolitan w zaledwie 35%.

Różnice między uczelniami badacze wiążą z typem prac i rozpiętością ocen. Prace z Cambridge pochodziły wyłącznie z egzaminów nadzorowanych przez wykładowców, tutaj oceny były bardziej skupione wokół środka skali. W Manchester Metropolitan badano prace zaliczeniowe, gdzie rozrzut był największy. Im szersza rozpiętość ocen, tym trudniej algorytmowi ją uchwycić.

Najważniejszym odkryciem był jednak nie sam poziom błędów popełnianych przez AI, ale ich charakter. Wszystkie trzy modele wykazywały nadmierną wrażliwość na cechy czysto językowe: długość eseju, bogactwo słownictwa, złożoność składniową zdań, gęstość spójników. Dłuższy tekst z rzadkimi słowami i rozbudowanymi zdaniami złożonymi dostawał od AI wyższe oceny, niezależnie od jakości argumentacji.

Ludzcy egzaminatorzy byli na te cechy niemal całkowicie nieczuli. Oceniali rozumowanie, umiejętność syntezy literatury, trafność wniosków, czyli to, co w akademickiej psychologii stanowi o wartości pracy. AI natomiast nagradzała styl. Nagradzała to, co dało się zmierzyć.

Towarzyszył temu drugi systematyczny błąd – unikanie skrajności. Badacze nazwali go „tendencją centralną". Modele spychały oceny ku środkowi skali, zawyżały słabe eseje, zaniżały wybitne. Praca, którą człowiek ocenił na 75 punktów, od AI dostawała średnio kilka punktów mniej. Praca z 50 punktami otrzymywała kilka punktów więcej. Granica zgodności między algorytmem a egzaminatorem przebiegała gdzieś w okolicach 58–62 punktów. To akurat tam, gdzie decyzja jest stosunkowo łatwa. Natomiast tam, gdzie naprawdę liczy się dobre zrozumienie i przeanalizowanie pracy – na granicy między wyróżnieniem a bardzo dobrym albo między zaliczeniem a niezaliczeniem – AI radziła sobie najgorzej.

Osobną obserwacją jest to, że trzy modele różnych producentów były do siebie nawzajem znacznie bardziej podobne niż każdy z nich był podobny do ludzkich egzaminatorów. Ich wewnętrzna spójność w czasie była niemal idealna, oceniając te same prace, dawały niemal identyczne wyniki. To jednak nie zaleta. Oznacza, że algorytmy popełniają te same błędy konsekwentnie i wspólnie. Wysoka zgodność między modelami nie przybliża ich do prawdy, a jedynie utrwala identyczny, systematyczny błąd.

Równolegle z analizą ilościową badacze przeprowadzili wywiady fokusowe ze studentami i wykładowcami. I tu padły słowa, których nie sposób zbagatelizować.

Uczestnicy opisywali ocenianie jako element głębszej relacji między uczelnią a studentem – opartej na zaufaniu, wzajemnym szacunku i przekonaniu, że praca została naprawdę przeczytana. Studenci mówili, że czuliby się oszukani, gdyby ich eseje oceniała maszyna. Wykładowcy ostrzegali, że AI odcina to, co w ocenianiu jest niewidzialne i niepoliczalne: znajomość studenta, kontekst jego wysiłku, niuanse myślenia widoczne między wierszami.

Jeden z akademików z Manchester Metropolitan stwierdził: AI nie uwzględni rozmów, dyskusji, intelektualnych błysków, które student miał przez cały semestr.

Raport OpRaise nie stwierdza, że dla LLM nie ma miejsca w ocenianiu. AI może wykrywać niespójności formalne, sprawdzać, czy praca spełnia podstawowe kryteria, alarmować, gdy jej ocena drastycznie odbiega od ludzkiej – co sugeruje, że warto daną pracę przejrzeć uważniej. To rola asystenta, nie egzaminatora.

Autor: Mariusz Błoński

Źródło: University of Cambridge

sztuczna inteligencja AI LLM wielki model językowy ocena praca student uczelnia

Komentarze (2)

Ergo Sum, 22 maja 2026, 15:50

Wszystkie opisane problemy wynikają z modelu tej sztucznej, (rzekomo) inteligencji. To gigantyczne aplikacje składające ze statystyk coś udające myślenie. LLM nie mają abstrakcyjnych pojęć, nie wnioskują, nie analizują wielopoziomowo. LLMy nie przeskoczą tego. Potrzebny jest całkowicie inny model AI - i to faktycznie "I"

Stanley, 7 czerwca 2026, 16:01

On 5/22/2026 at 3:50 PM, Ergo Sum said:

Wszystkie opisane problemy wynikają z modelu tej sztucznej, (rzekomo) inteligencji.

Która jest w zasadzie jedną wielką bazą danych. Zaindeksowaną tokenami na pierdylion sposobów. Więc ocena z AI będzie jedynie wypadkową odbiegania od średniej "konsensusu" i zaprogramowanego przekazu. W sumie niewiele odbiega od bezmózgów.

On 5/22/2026 at 1:16 PM, KopalniaWiedzy.pl said:

Towarzyszył temu drugi systematyczny błąd – unikanie skrajności. Badacze nazwali go „tendencją centralną".

Sztuczna inteligencja do końca 2025, była nawet spoko. Grok i CharGPT. Np. do pisania skryptów w Bashu. Mimo że wypadkowo wieczne poprawianie zajmowało więcej czasu tak że koniec końców lepiej zrobić samemu. Można było popaść w mały zachwyt. Z miesiąca na miesiąc staje coraz głupsza. Dla mnie nie do zniesienia. Gdyby np. OpenAI istniało wyłącznie na GPT3 to byłoby w stanie kompensować koszty i przynosić dochód. Nadrabiać przez web search. Czego nie jest w stanie zrobić przy modelu 5. Unika szukania i woli bazować na modelu. Sprawia wrażenie jakby hm.. jakby to obrazowo.. zastąpiono ray tracing grafiką komputerową z lat 90. Tak że konstrukcja odpowiedzi jest schematyczna. Nie dopasowuje się tak jak dawniej do sposobu pisania promptów. Jakbym wiecznie czytał tubę propagandową. W życiu bym nie polegał na nim w ocenianiu prac.

Słaba ekonomia zniszczyła to doświadczenie.

On 5/22/2026 at 3:50 PM, Ergo Sum said:

nie analizują wielopoziomowo

Myślę że SI potrafi łączyć więcej wątków niż człowiek ale ma straszną tendencję do trzymania tego czego nauczono. Nie jest to myślenie tylko czysta statystyka. Produkcja klonów

dodaj komentarz

Oto jak sztuczna inteligencja ocenia prace studentów

Komentarze (2)

Zostań Patronem

Najnowsze wiadomości

Najnowsze komentarze