Nowe narzędzie dla lingwistów
Informatycy z MIT-u i izraelskiego Technion odkryli niespodziewane źródło informacji o językach świata. Informacji, które można wydobyć analizując angielskie teksty pisane przez osoby, dla których angielski nie jest językiem ojczystym.
Mniej więcej rok temu Boris Katz, jeden z głównych badaczy w należącym do MIT-u Computer Science and Artificial Intelligence Laboratory zlecił jednemu ze swoich studentów pewne zadanie. Yevgeni Berzak miał stworzyć algorytm, który, na podstawie angielskiego tekstu odgadywałby język ojczysty jego autora. Katz miał nadzieję, że dzięki temu można będzie stworzyć oprogramowanie, które skoryguje gramatykę angielskiego tekstu biorąc pod uwagę język ojczysty jego autora.
Barzak, przy pomocy Katza i profesora Roia Reicharta z Technion, napisał algorytm, który analizował ponad 1000 anglojęzycznych tekstów napisanych przez osoby posługujące się na co dzień 14 innymi językami. Algorytm najpierw analizował poszczególne wyrazy w każdym zdaniu i badał związek pomiędzy nimi. Później, dzięki określeniu wzorców tych związków, próbował odgadnąć język ojczysty autora tekstu. Algorytm potrafił np. stwierdzić, że autor danego tekstu jest z 51-procentowym prawdopodobieństwem Rosjaninem, z 33% Polakiem, a prawdopodobieństwo, że tekst został napisany przez osobę, której językiem ojczystym jest japoński wynosi 16%.
Gdy Barzak, Katz i Reichart zaczęli analizować wyniki działania algorytmu zauważyli niezwykłą rzecz. Odpowiedzi podawane przez algorytm były jednocześnie ilościową miarę pokrewieństwa pomiędzy językami. Innymi słowy, można było z nich wywnioskować, że wzorce używane przez osoby mówiące językiem rosyjskim są bardziej podobne do tych używanych przez osobę mówiącą po polsku niż po japońsku. Zdumieni naukowcy wykorzystali odpowiedzi algorytmu do stworzenia drzewa genetycznego 14 języków, którymi posługiwał się algorytm. Okazało się, że jest ono niemal identyczne z drzewem stworzonym przez językoznawców.
Najbardziej zadziwiającą rzeczą tego drzewa jest fakt, że nasz system opracował je bez badania nawet jednego wyrazu z tych języków. Mimo to potrafił stworzyć strukturę wskazującą na podobieństwa. Teraz możemy pójść o krok dalej i wykorzystać to drzewo do odgadnięcia wzorców syntaktycznych języka, na temat którego nie mamy wiedzy lingwistycznej - mówi Barzak. Opracowany przezeń algorytm może pomóc w uzupełnieniu bazy WALS (World Atlas of Language Structures). Obecnie atlas ten zawiera 200 struktur syntaktycznych oraz dane na temat ponad 2000 języków. Jednak w przypadku części języków uzupełniono informacje o niewielkiej liczbie struktur, inne nie zostały jeszcze poznane. Luki występują nawet w dobrze zbadanych językach europejskich. Niewykluczone, że nowy algorytm pozwoli uzupełnić brakującą wiedzę.
Algorytm zajmował się na razie jedynie 14 językami, dla których istniała wystarczająca liczba publicznie dostępnych tekstów po angielsku. Średnio było to 88 tekstów dla każdego języka. Jednak z pewnością można go łatwo uzupełnić. Berzak wskazuje np. na afrykański język tswana, dla którego w WALS wypełniono jedynie 5 pól. Tymczasem językiem tym posługuje się 6 milionów osób, więc nie powinno być większych kłopotów w znalezieniu angielskich tekstów napisanych przez jego użytkowników.
Komentarze (4)
glaude, 23 lipca 2014, 14:11
Samą syntaktyką nie zbada się w pełni wiarygodnie pokrewieństw lingwistycznych.
Przykładem (może nie do końca trafionym) jest choćby tzw. "bałkańska liga językowa". Nie łączy tych języków pochodzenie (ścisłe- bo w sumie wszystkie są językami indoeuropejskimi), a jednak strukturalnie są bardzo podobne. Warstwa słowna tez jest ważna.
pogo, 23 lipca 2014, 14:37
To tylko kolejne źródło informacji, kolejne narzędzie... nie wyrocznia, więc spokojnie
Usher, 25 lipca 2014, 14:26
Źródło informacji nie jest ani tak nowe, ani tak niespodziewane, jak to naukowcy próbują przedstawić. Nowa jest dopiero obfitość tekstów do analizy, jaka zaistniała dzięki internetowi, nowa jest też możliwość automatycznej analizy, jaką dają inne osiągnięcia z dziedziny informatyki.
radar, 25 lipca 2014, 15:14
Pytanie jak ta korelacja ma się do różnicy poziomów w opanowaniu j. ang. u osobników tej samej nacji?