Wielkość ma znaczenie. Olbrzymi procesor zrewolucjonizuje sztuczną inteligencję?

| Technologia
Cerebras

Trenowanie systemów sztucznej inteligencji trwa obecnie wiele tygodni. Firma Cerebras Systems twierdzi, że potrafi skrócić ten czas do kilku godzin. Pomysł polega na tym, by móc testować więcej pomysłów, niż obecnie. Jeśli moglibyśmy wytrenować sieć neuronową w ciągu 2-3 godzin, to rocznie możemy przetestować tysiące rozwiązań, mówi Andrew Feldman, dyrektor i współzałożyciel Cerebras.

Jeśli chcemy wytrenować sieć sztucznej inteligencji, która np. ma zarządzać autonomicznym samochodem, potrzebujemy wielu tygodni i olbrzymiej mocy obliczeniowej. Sieć musi przeanalizować olbrzymią liczbę zdjęć czy materiałów wideo, by nauczyć się rozpoznawania istotnych obiektów na drodze.

Klienci Cerebras skarżą się, że obecnie trenowanie dużej sieci neuronowej może trwać nawet 6 tygodni. W tym tempie firma może wytrenować około 6 sieci rocznie. To zdecydowanie zbyt mało dla przedsiębiorstw, które chcą sprawdzić wiele nowych pomysłów za pomocą SI.

Rozwiązaniem problemu ma być komputer CS-1, a właściwie jego niezwykły procesor. Maszyny CS-1 mają wysokość 64 centymetrów, a każda z nich potrzebuje do pracy 20 kW. Jednak 3/4 obudowy każdego z komputerów zajmuje układ chłodzenia, a tym, co najbardziej rzuca się w oczy jest olbrzymi układ scalony. Zajmuje on powierzchnię 46 255 milimetrów kwadratowych, czyli około 50-krotnie więcej niż tradycyjny procesor. Zawiera 1,2 biliona tranzystorów, 400 000 rdzeni obliczeniowych i 18 gigabajtów pamięci SRAM.

Procesor o nazwie Wafer Scale Engine (WSE) wypada znacznie lepiej niż podobne systemy. Jak zapewniają przedstawiciele Cerebras, ich maszyna, w porównaniu z klastrem TPU2 wykorzystywanym przez Google'a do trenowania SI, zużywa 5-krotnie mniej energii i zajmuje 30-krotnie mniej miejsca, a jest przy tym 3-krotnie bardziej wydajna. Takie zestawienie brzmi imponująco, a na ile rzeczywiście WSE jest lepszy od dotychczasowych rozwiązań powinno ostatecznie okazać się w bieżącym roku. Jak zauważa analityk Mike Demler, sieci neuronowe stają się coraz bardziej złożone, więc możliwość szybkiego ich trenowania jest niezwykle ważna.

Cerebras

Trzeba jednak przyznać, że w twierdzeniach Cerebras musi być ziarno prawdy. Wśród klientów firmy jest m.in. Argonne National Laboratory, które ma już maszyny CS-1 u siebie. Zapewne już wkrótce dowiemy się, czy rzeczywiście zapewniają one tak wielką wydajność i pozwalają tak szybko trenować sieci neuronowe.

Twórcami Cerebras są specjaliści, którzy pracowali w firmie Sea Micro, przejętej przez AMD. Pomysł stworzenia komputera wyspecjalizowanego w sztucznej inteligencji zaczął kiełkować w ich głowach w 2015 roku. Stwierdzili, że odpowiedni procesor musi być w stanie szybko przesyłać duże ilości danych, układy pamięci muszą znajdować się blisko rdzenia, a same rdzenie nie powinny zajmować się danymi, którymi już zajmują się inne rdzenie. To zś oznaczało, że tego typu układ musi składać się z olbrzymiej liczby niewielkich rdzeni wyspecjalizowanych w obliczeniach z zakresu sieci neuronowych, połączenia między rdzeniami muszą być szybkie i zużywać niewiele energii, a wszystkie dane muszą być dostępne na procesorze, a nie w osobnych układach pamięci.

Twórcy Cerebras uznali, że tym, czego potrzebują, jest chip niemalże wielkości całego plastra krzemowego. Udało im się taki układ skonstruować, chociaż nie było to łatwe zadanie i wciąż muszą poradzić sobie z licznymi problemami. Jednym z nich było poradzenie sobie z filozofią tworzenia współczesnych plastrów krzemowych. Obecnie z pojedynczego plastra tworzy się wiele procesorów. Po ich przygotowaniu, plaster, zawierający wiele identycznych układów, jest cięty. W procesie przygotowywania plastra do produkcji tworzy się na nim specjalne linie, wzdłuż których przebiegają cięcia. Tymczasem Cerebras potrzebowało takiego plastra w całości, z połączeniami pomiędzy poszczególnymi rdzeniami. To zaś wymagało nawiązania współpracy z TSMC i opracowania metody przeprowadzenia połączeń przez linie.

Wysiłek się opłacił. Poszczególne rdzenie komunikują się między sobą z prędkością 1000 Pb/s, a komunikacja pomiędzy pamięcią a rdzeniami przebiega w tempie do 9 PB/s. To nie jest trochę więcej. To o cztery rzędy wielkości więcej, gdyż wszystko odbywa się w ramach tego samego plastra, cieszy się Feldman.

Jednak przeprowadzenie połączeń przez linie nie był jedynym problemem. Trzeba było zmodyfikować cały proces projektowania i produkcji układów. Nawet oprogramowanie do projektowania procesorów jest przygotowane pod niewielkie układy. Każda zasada, każde narzędzie i każde urządzenie jest obecnie dostosowana do produkcji układów scalonych o zwyczajowych rozmiarach. My zaś potrzebujemy czegoś znacznie większego, dlatego też musieliśmy na nowo opracować każdy element, dodaje Feldman.

Jeszcze innym problemem okazało się zasilanie takiego układu. Każdy z 1,2 biliona tranzystorów potrzebuje 0,8 wolta. To standardowe napięcie, ale tranzystorów jest tak dużo, że do układu należy doprowadzić prąd o natężeniu 20 000 amperów.

Uzyskanie w całym plastrze 20 000 amperów bez znacznego spadku napięcia było kolejnym wyzwaniem inżynieryjnym, mówią przedstawiciele Cerebras. Doprowadzenie prądu do krawędzi WSE nie wchodziło w rachubę, gdyż opory spowodowałyby spadek napięcia do zera zanim prąd osiągnąłby środek układu. Rozwiązaniem okazało się prostopadłe podłączenie od góry. Inżynierowie Cerebras zaprojektowali specjalny zestaw składający się z setek układów wyspecjalizowanych w kontrolowaniu przepływu prądu. Za pomocą miliona miedzianych połączeń dostarcza on zasilanie do WSE.

Cerebras nie podaje żadnych danych odnośnie testów wydajności swojego rozwiązania w porównaniu z innymi systemami. Zamiast tego firma zachęca swoich klientów, by po prostu sprawdzili, czy  CS-1 i WSE sprawują się lepiej w zadaniach, których ci klienci potrzebują. Nie ma w tym jednak nic dziwnego. Każdy korzysta z własnych modeli dostosowanych do własnych potrzeb. To jedyne co się liczy dla klienta, mówi analityk Karl Freund.

Jednym z takich klientów jest właśnie Argonne National Laboratory. Ma ono dość specyficzne potrzeby. Wykorzystuje sieci neuronowe do rozpoznawania różnych rodzajów fal grawitacyjnych w czasie rzeczywistym. Pracujący tam specjaliści wolą więc samodzielnie przekonać się, czy nowe urządzenie lepiej sprawdzi się w tych zastosowaniach niż dotychczas stosowane superkomputery.

sztuczna inteligencja SI AI Cerebras Systems sieć neuronowa Google trening WSE procesor