Błędne zdania z komentarzem

| Humanistyka
Cofrin Library, CC-BY

Naukowcy z MIT udostępnili pierwszą dużą bazę danych zawierającą angielskie zdania napisane przez osoby, dla których angielski nie jest językiem macierzystym, wraz z komentarzem do tych zdań. Już wcześniej naukowcy wykazali, że lingwiści mogą przeprowadzić interesujące badania sprawdzając błędy robione przez użytkowników, którzy angielskiego nauczyli się jako drugiego lub kolejnego języka. Teraz mają nadzieję, że ich baza danych nie tylko pomoże w takich badaniach, ale posłuży też do udoskonalenia automatycznych narzędzi tłumaczących z i na język angielski.

Angielski to najpopularniejszy język w internecie. Używa go ponad miliard osób. Większość z tych, którzy w sieci piszą po angielsku nie są rodzimymi użytkownikami angielszczyzny. Fakt ten jest często pomijany podczas badań nad językiem angielskim czy podczas tworzenia narzędzi językowych - mówi Jewgienij Berzak, student MIT. Zauważa on, że przy tworzeniu automatycznych narzędzi językowych, którymi w dużej mierze posługują się osoby, dla których angielski nie jest rodzimym językiem, wykorzystuje się zasady standardowej angielszczyzny oraz systemy maszynowego uczenia się. Tymczasem, jak uważają naukowcy z MIT, jeśli maszyny będą uczyły się niestandardowej angielszczyzny, prawdopodobnie będą lepiej rozumiały osoby, dla których angielski jest językiem obcym. Może dzięki temu powstać np. oprogramowanie wyspecjalizowane w korygowaniu błędów gramatycznych popełnianych przez osoby posługujące się na co dzień innymi językami.

Wspomniana na początku baza danych zawiera 5124 zdania, jakie pojawiły się w wypracowaniach egzaminacyjnych obcokrajowców. Dla osób tych językami macierzystymi jest 10 innych języków, którymi w sumie posługuje się 40% populacji świata. Każde z tych zdań zawiera co najmniej 1 błąd gramatyczny. Każdy z takich błędów został odpowiednio oznaczony i skomentowany. Oznaczono też syntaktyczne zależności pomiędzy wszystkimi wyrazami w każdym ze zdań. Powstały w ten sposób szczegółowe wykresy zdań w ich wersji błędnej oraz prawidłowej.

Aby upewnić się, że wszystkie zdania opisano według identycznego schematu - tylko bowiem spójność opisu gwarantuje, że maszyny dobrze nauczą się pracy ze zdaniami - jedna osoba opisywała zdania, druga sprawdzała opis i zaznaczała ewentualne nieprawidłowości, a trzecia rozstrzygała, czy rzeczywiście opis był spójny czy niespójny.

MIT angielski błąd uczenie maszynowe przekład