Państwowy Instytut Badawczy udostępnił dwa neuronowe modele języka polskiego

| Technologia
Pexels, CC (Pixabay)

Naukowcy z Ośrodka Przetwarzania Informacji Państwowego Instytutu Badawczego (OPI PIB) udostępnili w tym roku dwa polskojęzyczne neuronowe modele języka – Polish RoBERTa v2 oraz GPT-2. Popularność takich modeli szybko rośnie. Zwiększają się też ich rozmiary czyli liczba parametrów. I chociaż większość osób nie zdaje sobie sprawy z ich istnienia, to wielu z nas na co dzień z nich korzysta.

Dzięki neuronowym modelom języka mamy dostęp do usług automatycznego tłumaczenia tekstu na różne języki, nasza poczta elektroniczna wykrywa spam, korzystają z nich systemy korekty tekstu i chatboty.

Modele takie mają olbrzymi potencjał, niż zatem dziwnego, że prace nad nimi trwają w wielu ośrodkach na całym świecie. Jednak ich opracowanie dużych mocy obliczeniowych oraz specjalistycznej infrastruktury. Niezbędne są też olbrzymie ilości danych.

W OPI PIB już dawno dostrzegliśmy potencjał, jaki posiadają neuronowe modele języka. Utworzyliśmy nawet Laboratorium Inżynierii Lingwistycznej (LIL), w którym nasi eksperci budują inteligentne narzędzia do odkrywania wiedzy z dużych korpusów danych tekstowych i internetowych. To właśnie oni opracowali i wdrożyli Jednolity System Antyplagiatowy (JSA), z którego korzystają wszyscy promotorzy prac dyplomowych w Polsce. Temat neuronowych modeli języka jest jednak tak innowacyjny i obszerny, że również w innych jednostkach OPI PIB pracujemy nad tym zagadnieniem. Bardzo ciekawe i innowacyjne prace realizuje największe z naszych laboratoriów, tj. Laboratorium Inteligentnych Systemów Informatycznych (LISI), jego zespół opracował m.in. model Polish RoBERTa large, który wytrenowano na największym w Polsce korpusie tekstów. W tym roku kontynuowaliśmy prace i udostępniliśmy dwa nowe modele – Polish RoBERTa base v2 oraz przeznaczony do zadań związanych z generowaniem tekstu model GPT-2, stwierdził dyrektor OPI PIB dr inż. Jarosław Protasiewicz.

Polish RoBERTa był trenowany na największym polskim korpusie tekstów, na który składa się 130 GB danych. Jego tegoroczna druga wersja jest mniejsza, nie wymaga więc równie dużych mocy obliczeniowych, a wyniki otrzymujemy szybciej.

Wykorzystany korpus danych składa się z dwóch zasadniczych części. Bazę stanowią teksty z takich źródeł jak Wikipedia, dokumenty parlamentu, książki, artykuły i dłuższe formy pisane. Z kolei w skład części internetowej stanowią teksty pozyskane za pomocą projektu CommonCrawl z witryn internetowych.

Modele udostępnione przez OPI PIB oparte są na sieciach transformer. Architektura ta jest stosunkowo nowa – stosowana jest od 2017 roku. Sieci typu transformer nie opierają się na sekwencyjnym przetwarzaniu danych, zamiast tego przetwarzają je w sposób jednoczesny. Modele opracowane w Laboratorium Inteligentnych Systemów Informatycznych OPI PIB doskonale nadają się do badania polskiego internetu, dodaje Sławomir Dadas z Laboratorium Inteligentnych Systemów Informatycznych w OPI PIB.

Najnowszym udostępnionym modelem jest GPT-2. Również i on korzysta z architektury transformer. Przeznaczony jest głównie do zadań związanych z generowaniem tekstu.

Trenowanie pojedynczego modelu trwa 3 do 4 miesięcy jednak, jak zapewniają w OPI PIB, wysiłek się opłaca.

Polish RoBERTa v2 GPT-2 neuronowe modele języka