Oto jak sztuczna inteligencja ocenia prace studentów

| Technologia
Postaw mi kawę na buycoffee.to
Unseen Studio, Unsplash

Sztuczna inteligencja pisze kod, tłumaczy teksty, diagnozuje choroby ze zdjęć rentgenowskich. Nic dziwnego, że pojawiło się pytanie, czy nie mogłaby też oceniać pisemnych prac studentów, zarówno pisanych w domu, jak i podczas egzaminów na uczelni. W obliczu szybko rosnącej liczby studentów AI wydaje się naturalnym rozwiązaniem. Badacze z Uniwersytetu Cambridge postanowili sprawdzić, czy słusznie.

Projekt OpRaise zgromadził 761 autentycznych prac pisemnych z psychologii napisanych przez studentów trzech uczelni – Cambridge, Nottingham i Manchester Metropolitan – między 2022 a 2025 rokiem. Każda praca była już wcześniej oceniona przez ludzkiego egzaminatora w ramach rutynowej procedury.

Teraz prace te miały zostać ocenione przez trzy czołowe wielkie modele językowe (LLM): Claude Opus 4.6 (Anthropic), GPT-5.4 (OpenAI) i Gemini 3 Flash (Google). Celem projektu było sprawdzenie, na ile ocena wystawiona przez maszynę będzie zgodna z oceną wystawioną przez człowieka. Badacze testowali różne sposoby formułowania poleceń dla AI, od najprostszego („jesteś doświadczonym egzaminatorem") po szczegółowe instrukcje z rubryką oceniania i prośbą o uzasadnienie przed wystawieniem punktów. Szukali konfiguracji, która da najlepsze wyniki. Żadna nie okazała się wystarczająco dobra.

Kluczowym miernikiem była zgodność kategorii oceny przyznanej przez LLM z kategorią przyznaną przez człowieka. W odniesieniu do prac pisanych na Cambridge AI trafiała w 63% przypadków, w Nottingham w 53%, w Manchester Metropolitan w zaledwie 35%.

Różnice między uczelniami badacze wiążą z typem prac i rozpiętością ocen. Prace z Cambridge pochodziły wyłącznie z egzaminów nadzorowanych przez wykładowców, tutaj oceny były bardziej skupione wokół środka skali. W Manchester Metropolitan badano prace zaliczeniowe, gdzie rozrzut był największy. Im szersza rozpiętość ocen, tym trudniej algorytmowi ją uchwycić.

Najważniejszym odkryciem był jednak nie sam poziom błędów popełnianych przez AI, ale ich charakter. Wszystkie trzy modele wykazywały nadmierną wrażliwość na cechy czysto językowe: długość eseju, bogactwo słownictwa, złożoność składniową zdań, gęstość spójników. Dłuższy tekst z rzadkimi słowami i rozbudowanymi zdaniami złożonymi dostawał od AI wyższe oceny, niezależnie od jakości argumentacji.

Ludzcy egzaminatorzy byli na te cechy niemal całkowicie nieczuli. Oceniali rozumowanie, umiejętność syntezy literatury, trafność wniosków, czyli to, co w akademickiej psychologii stanowi o wartości pracy. AI natomiast nagradzała styl. Nagradzała to, co dało się zmierzyć.

Towarzyszył temu drugi systematyczny błąd – unikanie skrajności. Badacze nazwali go „tendencją centralną". Modele spychały oceny ku środkowi skali, zawyżały słabe eseje, zaniżały wybitne. Praca, którą człowiek ocenił na 75 punktów, od AI dostawała średnio kilka punktów mniej. Praca z 50 punktami otrzymywała kilka punktów więcej. Granica zgodności między algorytmem a egzaminatorem przebiegała gdzieś w okolicach 58–62 punktów. To akurat tam, gdzie decyzja jest stosunkowo łatwa. Natomiast tam, gdzie naprawdę liczy się dobre zrozumienie i przeanalizowanie pracy – na granicy między wyróżnieniem a bardzo dobrym albo między zaliczeniem a niezaliczeniem – AI radziła sobie najgorzej.

Osobną obserwacją jest to, że trzy modele różnych producentów były do siebie nawzajem znacznie bardziej podobne niż każdy z nich był podobny do ludzkich egzaminatorów. Ich wewnętrzna spójność w czasie była niemal idealna, oceniając te same prace, dawały niemal identyczne wyniki. To jednak nie zaleta. Oznacza, że algorytmy popełniają te same błędy konsekwentnie i wspólnie. Wysoka zgodność między modelami nie przybliża ich do prawdy, a jedynie utrwala identyczny, systematyczny błąd.

Równolegle z analizą ilościową badacze przeprowadzili wywiady fokusowe ze studentami i wykładowcami. I tu padły słowa, których nie sposób zbagatelizować.

Uczestnicy opisywali ocenianie jako element głębszej relacji między uczelnią a studentem – opartej na zaufaniu, wzajemnym szacunku i przekonaniu, że praca została naprawdę przeczytana. Studenci mówili, że czuliby się oszukani, gdyby ich eseje oceniała maszyna. Wykładowcy ostrzegali, że AI odcina to, co w ocenianiu jest niewidzialne i niepoliczalne: znajomość studenta, kontekst jego wysiłku, niuanse myślenia widoczne między wierszami.

Jeden z akademików z Manchester Metropolitan stwierdził: AI nie uwzględni rozmów, dyskusji, intelektualnych błysków, które student miał przez cały semestr.

Raport OpRaise nie stwierdza, że dla LLM nie ma miejsca w ocenianiu. AI może wykrywać niespójności formalne, sprawdzać, czy praca spełnia podstawowe kryteria, alarmować, gdy jej ocena drastycznie odbiega od ludzkiej – co sugeruje, że warto daną pracę przejrzeć uważniej. To rola asystenta, nie egzaminatora.

sztuczna inteligencja AI LLM wielki model językowy ocena praca student uczelnia