Niezależny od języka algorytm automatycznie tworzy abstrakty

| Technologia
Ben-Gurion University

Wraz z coraz większą liczbą tekstów publikowanych w internecie, pojawiła się potrzeba stworzenia zautomatyzowanych metod tworzenia abstraktów artykułów czy wywiadów. Większość dostępnych narzędzi jest zależnych od języka, w jakim został napisany oryginalny tekst, a ich stworzenie wymaga trenowania algorytmów na wielkich bazach danych.

Firma BGN Technologies, zajmująca się transferem technologicznym wynalazków opracowanych na Uniwersytecie Ben Guriona, zaprezentowała nowatorskie automatyczne narzędzie do tworzenia abstraktów, które działa niezależnie od języka oryginalnego tekstu.

Technologia, opracowana przez profesora Marka Lasta, doktor Marinę Litvak i doktora Menahema Friedmana bazuje na algorytmie, który klasyfikuje poszczególne zdania na podstawie statystycznych obliczeń charakterystycznych cech, które mogą być wyliczone dla każdeog języka. Następnie najwyżej ocenione zdania są wykorzystywane do stworzenia abstraktu. Metoda, nazwana Multilingual Sentence Extractor (MUSE), została przetestowana na języku angielskim, hebrajskim, arabskim, perskim, rosyjskim, chińskim, niemieckim i hiszpańskim. W przypadku angielskiego, hebrajskiego, arabskiego i perskiego stworzone abstrakty były bardzo podobne do abstraktów napisanych przez ludzi.

Główną zaletą nowego narzędzia jest fakt, że po początkowym treningu algorytmów na opatrzonych odpowiednimi komentarzami artykułach, z których każdemu towarzyszy kilkanaście abstraktów napisanych przez ludzi, algorytmy nie muszą być później trenowane dla każdego języka z osobna. Ten sam model, który wypracowały podczas treningu, może zostać użyty dla wielu różnych języków.

Podsumowanie tekstu, do którego wybrano zestaw najbardziej pasujących zdań z tekstu źródłowego, a wyboru dokonano na podstawie punktacji przyznawanej zdaniom i wykorzystanie w abstrakcie najwyżej punktowanych zdań, to nieocenione narzędzie do szybkiego przeglądania wielkich ilość tekstów w sposób niezależny od języka. To kluczowe narzędzie zarówno dla wyszukiwarek jak i dla takich użytkowników końcowych jak badacze, biblioteki czy media – stwierdził profesor Last.

algorytm język abstrakt tekst