Ludzie kontra maszyny: kto jest lepszym tłumaczem? Człowiek czy wielki model językowy?
Systemy sztucznej inteligencji w coraz większej liczbie zadań dorównują ludziom. Dlatego naukowcy z Westlake University w chińskim Hangzhou postanowili sprawdzić, jak radzą sobie z tłumaczeniami tekstów. Porównali zatem tłumaczy gatunku Homo sapiens z wielkimi modelami językowymi, w tym z GPT-4, ALMA-R oraz Deepseek-R1. Ludzie i maszyny mieli tłumaczyć w obie strony te same fragmenty tekstów pomiędzy chińskim i angielskim, rosyjskim i angielskim oraz chińskim i hindi. Teksty dotyczyły trzech dziedzin. Były to bieżące informacje prasowe, teksty technologiczne i biomedyczne.
Na potrzeby badań ludzkich tłumaczy podzielono na trzy kategorie. Za tłumaczy młodszych uznano osoby o nie większym niż dwuletnim stażu pracy jako tłumacze zawodowi, tłumacze średniego szczebla, to osoby, które miały 3–5 lat doświadczenia lub były rodzimymi użytkownikami języka, na który tłumaczono. W końcu zaś najwyższa kategoria tłumaczy to osoby o co najmniej 10-letni doświadczeniu, które posiadały certyfikat CATTI (China Accreditation Test for Translators and Interpreters). Wykonane tłumaczenia były następnie oceniane przez sześciu ekspertów. Nie wiedzieli oni, które z tłumaczeń wykonał człowiek, a które maszyna.
Eksperyment wykazał, że możliwości GPT-4 są porównywalne z tłumaczami młodszymi i średniego szczebla. Główny autor badań, profesor Yue Zhang mówi, że to prawdopodobnie pierwszy w historii przypadek, gdy maszyna dorównała jakością tłumaczenia profesjonaliście.
Już w przeszłości pojawiały się głosy, że maszyny osiągnęły poziom człowieka, jednak stwierdzenia te były poddawane w wątpliwość. Chcieliśmy wyjść poza proste porównania i w sposób naukowy sprawdzić możliwości wielkich modeli językowych w starciu z profesjonalnymi tłumaczami o różnym poziomie doświadczenia, dodaje uczony.
Badania wykazały, że jedynie najbardziej doświadczeni tłumacze wykonują swoją pracę w sposób bezsprzecznie lepszy niż maszyny. We fragmentach tekstu składających się z około 200 zdań model GPT-4 robił średnio 3,71 poważnych błędów, liczba błędów robionych przez młodszych tłumaczy wynosiła 3,27, a średnio doświadczonych – 3,30. Najbardziej doświadczeni tłumacze robili zaś w tekście o takiej długości średnio 1,83 poważnych błędów.
Ludzie i maszyny robili różne rodzaje błędów. Modele językowe miały tendencję do zbyt dosłownego tłumaczenia, natomiast ludzie wykazywali tendencję wręcz przeciwną – byli za bardzo kreatywni, gdy próbowali wypełnić luki w miejscach, gdzie tekst nie był jednoznaczny. Ludzie popełniali więcej błędów związanych z nadinterpretacją tekstu. Z drugiej jednak strony to właśnie zdolność głębszego wniknięcia i zrozumienia tekstu powodowała, że najbardziej doświadczeni tłumacze lepiej rozumieli niuanse językowe, dzięki czemu popełniali mniej błędów.
Autorzy badań uważają, że do zadań wymagających wysokiej precyzji, twórczej interpretacji czy znajomości kultury – takich jak na przykład tłumaczenia literatury pięknej – najbardziej doświadczeni tłumacze są wciąż niezbędni. Jednak zauważyli też pierwsze oznaki, że w przyszłości może się to zmienić.



Komentarze (0)