Automatyczna rekonstrukcja lingwistyczna

| Humanistyka
UC Berkeley

Dawne języki są skarbnicą informacji o ludzkiej kulturze i historii. Jednak ich odtwarzanie wymaga niejednokrotnie dziesięcioleci żmudnej wytężonej pracy. Naukowcy z Uniwersytetu Kalifornijskiego w Berkeley stworzyli oprogramowanie komputerowe, które znakomicie przyspiesza prace nad rekonstrukcją przodków obecnych języków.

Najbardziej ekscytujące w tym systemie jest wykorzystanie wielu pomysłów lingwistów na rekonstrukcję historyczną i zautomatyzowanie ich tak, że rozwiązujemy problemy w większej skali. Więcej danych, więcej wyrazów, więcej języków, ale w krótszym czasie - mówi profesor informatyki Dan Klein.

Oprogramowanie korzysta z wnioskowania probabilistycznego. Było ono w stanie zrekonstruować drzewo genealogiczne ponad 600 języków austronezyjskich na podstawie bazy danych 140 000 wyrazów. Dokładność rekonstrukcji wyniosła 85% w porówananiu z rekonstrukcję wykonaną przez lingwistów. Proces ręcznej rekonstrukcji może trwać latami. Automatyczny system wykonuje go w ciągu dni lub nawet godzin.

Co więcej, jak zapewnia profesor psychologii Tom Griffiths z Computational Cognitive Science Lab, nasz model statystyczny może zostać wykorzystany nie tylko do wykonania odniesień do przeszłości, ale również przewidywania zmian w przyszłości.

Historia pisma liczy sobie zaledwie 6000 lat. Powstało ono zatem długo po pojawieniu się protojęzyków. Lingwiści, chcąc się dowiedzieć jak wyglądały, muszą dokonywać żmudnych porównań języków, poszukiwania związków pomiędzy nimi i na tej podstawie mogą stwierdzić, czy mają one wspólnych przodków oraz określić, jak ci przodkowie wyglądali. Zrozumienie, w jaki sposób zmienia się język, które dźwięki z większym prawdopodobieństwem ulegną zmianie i jak będą brzmiały, wymaga zrekonstruowania i analizowania olbrzymich ilości dawnych form. To właśnie tam przydaje się automatyczna rekonstrukcja - wyjaśnia profesor statystyki Alexandre Bouchard-Cote.

Wspomniane oprogramownie korzysta z metody Monte Carlo opartej na łańcuchach Markowa. Bada ono wyrazy pokrewne, czyli takie, które występują w różnych językach, ale mają podobne brzmienie, historię i pochodzenie. Na tej podstawie oblicza prawdopodobieństwo ich pochodzenia od konkretnego protojęzyka. Na każdym etapie próbuje przewidzieć zmiany jakie zaszły w danym wyrazie, co ułatwia rekonstrukcję. Po określeniu wcześniejszej formy zapamiętuje ją i ponownie sprawdza, poprawiając w razie potrzeby.

język lingwistyka prajęzyk rekonstrukcja