Nowe narzędzie dla lingwistów

| Humanistyka
Wikipedia, CC

Informatycy z MIT-u i izraelskiego Technion odkryli niespodziewane źródło informacji o językach świata. Informacji, które można wydobyć analizując angielskie teksty pisane przez osoby, dla których angielski nie jest językiem ojczystym.

Mniej więcej rok temu Boris Katz, jeden z głównych badaczy w należącym do MIT-u Computer Science and Artificial Intelligence Laboratory zlecił jednemu ze swoich studentów pewne zadanie. Yevgeni Berzak miał stworzyć algorytm, który, na podstawie angielskiego tekstu odgadywałby język ojczysty jego autora. Katz miał nadzieję, że dzięki temu można będzie stworzyć oprogramowanie, które skoryguje gramatykę angielskiego tekstu biorąc pod uwagę język ojczysty jego autora.

Barzak, przy pomocy Katza i profesora Roia Reicharta z Technion, napisał algorytm, który analizował ponad 1000 anglojęzycznych tekstów napisanych przez osoby posługujące się na co dzień 14 innymi językami. Algorytm najpierw analizował poszczególne wyrazy w każdym zdaniu i badał związek pomiędzy nimi. Później, dzięki określeniu wzorców tych związków, próbował odgadnąć język ojczysty autora tekstu. Algorytm potrafił np. stwierdzić, że autor danego tekstu jest z 51-procentowym prawdopodobieństwem Rosjaninem, z 33% Polakiem, a prawdopodobieństwo, że tekst został napisany przez osobę, której językiem ojczystym jest japoński wynosi 16%.

Gdy Barzak, Katz i Reichart zaczęli analizować wyniki działania algorytmu zauważyli niezwykłą rzecz. Odpowiedzi podawane przez algorytm były jednocześnie ilościową miarę pokrewieństwa pomiędzy językami. Innymi słowy, można było z nich wywnioskować, że wzorce używane przez osoby mówiące językiem rosyjskim są bardziej podobne do tych używanych przez osobę mówiącą po polsku niż po japońsku. Zdumieni naukowcy wykorzystali odpowiedzi algorytmu do stworzenia drzewa genetycznego 14 języków, którymi posługiwał się algorytm. Okazało się, że jest ono niemal identyczne z drzewem stworzonym przez językoznawców.

Najbardziej zadziwiającą rzeczą tego drzewa jest fakt, że nasz system opracował je bez badania nawet jednego wyrazu z tych języków. Mimo to potrafił stworzyć strukturę wskazującą na podobieństwa. Teraz możemy pójść o krok dalej i wykorzystać to drzewo do odgadnięcia wzorców syntaktycznych języka, na temat którego nie mamy wiedzy lingwistycznej - mówi Barzak. Opracowany przezeń algorytm może pomóc w uzupełnieniu bazy WALS (World Atlas of Language Structures). Obecnie atlas ten zawiera 200 struktur syntaktycznych oraz dane na temat ponad 2000 języków. Jednak w przypadku części języków uzupełniono informacje o niewielkiej liczbie struktur, inne nie zostały jeszcze poznane. Luki występują nawet w dobrze zbadanych językach europejskich. Niewykluczone, że nowy algorytm pozwoli uzupełnić brakującą wiedzę.

Algorytm zajmował się na razie jedynie 14  językami, dla których istniała wystarczająca liczba publicznie dostępnych tekstów po angielsku. Średnio było to 88 tekstów dla każdego języka. Jednak z pewnością można go łatwo uzupełnić. Berzak wskazuje np. na afrykański język tswana, dla którego w WALS wypełniono jedynie 5 pól. Tymczasem językiem tym posługuje się 6 milionów osób, więc nie powinno być większych kłopotów w znalezieniu angielskich tekstów napisanych przez jego użytkowników.

algorytm języki pokrewieństwo