WSE 2, gigantyczny procesor dla sztucznej inteligencji, zawiera 2,6 biliona tranzystorów
Przed rokiem firma Cerebras Systems zaprezentowała największy w historii procesor o gigantycznej mocy obliczeniowej, który pokonał najpotężniejszy superkomputer, symulując procesy fizyczne szybciej, niż odbywają się one w rzeczywistości. Teraz firma ogłosiła, że stworzyła drugą wersję swojego procesora i udostępni go w 3. kwartale bieżącego roku. Wafer Scale Engine 2 (WSE 2) ma ponaddwukrotnie więcej tranzystorów, rdzeni i pamięci niż WSE 1.
Trenowanie systemów sztucznej inteligencji trwa wiele tygodni. To zdecydowanie zbyt długo, gdyż w takiej sytuacji można wytrenować tylko kilka sieci rocznie. Jeśli zaś moglibyśmy wytrenować sieć neuronową w ciągu 2-3 godzin, to rocznie możemy przetestować tysiące rozwiązań, mówi Andrew Feldman, dyrektor i współzałożyciel Cerebras.
Mogą w tym pomóc właśnie olbrzymie procesory WSE. Ich twórcy zauważyli, że rozwiązaniem problemu wąskiego gardła, którym jest konieczność ciągłego przesyłania danych pomiędzy procesorem a układami pamięci, będzie zbudowanie wielkiego procesora, który będzie w stanie przechować wszystkie potrzebne dane w swoich rdzeniach.
Oba procesory WSE mają powierzchnię 46 255 mm2. Dla porównania procesor Nvidia A100 ma powierzchnię 826 mm2. WSE 2 korzysta z 2,6 biliona tranzystorów (WSE 1 z 1,2 biliona, a A100 z 54,2 miliardów). Najnowszy procesor Cerebras składa się z 850 000 rdzeni (WSE 1 ma ich 400 000, A100 – 7344). W WSE 2 zastosowano 40 gigabajtów pamięci. TO aż 1000-krotnie więcej niż w A100 i ponaddwukrotnie więcej niż w WSE 1. Ponadto rdzenie WSE 2 wymieniają między sobą dane z prędkością 200 PB/s, podczas gdy A100 przekazuje dane z prędkością 155 GB/s, a WSE 1 z prędkością 9 PB/s. Najnowszy procesor Cerebras został wykonany w technologii 7nm, czyli tej samej co A100. WSE 1 korzystał z 16nm.
Cerebras zapewnia, że udoskonalił również samą mikroarchitekturę WSE 2 tak, by jeszcze lepiej spełniał on zadania stawiane przed systemami sztucznej inteligencji.
Firma może pochwalić się rosnącą liczbą klientów, którzy prowadzą na WSE 1 i mają zamiar prowadzić na WSE 2 niezwykle złożone obliczenia. Wśród klientów tych jest Argonne National Lab, które wykorzystuje WSE do prac nad lekami na nowotwory, badania COVID-19, badania fal grawitacyjnych czy badań nad nowymi materiałami. Z kolei Edinburgh Parallel Computing Centre używa WSE do przetwarzania języka naturalnego i badań genetycznych. Koncern farmaceutyczny GlaxoSmithKline poszukuje nowych leków za pomocą WSE 1, a Lawrence Livermore National Lab symuluje fuzję jądrową, prowadzi badania nad traumatycznymi uszkodzeniami mózgu.
Wśród klientów Cerebras jest też wiele firm z przemysłu ciężkiego, wojskowego czy wywiadu.
Komentarze (5)
thikim, 22 kwietnia 2021, 07:21
Fajnie by się kopało krypto
Na której to uczelni kopali na superkompie?
Byłem miesiąc czy dwa temu w czyimś domu - szukałem do zakupu - wchodzę do garażu - patrzę z 8 kart graficznych na stelażu.
Potem jeszcze w kilku pomieszczeniach to samo
Czyli łącznie tych kart graficznych to tam było ponad 20. Ze 100 PLN/dzień powinno dawać.
tempik, 22 kwietnia 2021, 08:44
wydaje mi się że kopanie to monotonne powtarzanie tych samych, prostych, zmiennoprzecinkowych operacji. Nie wiem czy w tym zastosowaniu ten wafel byłby szybszy od zwykłej karty graficznej.
Zresztą, to jest firma prywatna nie mająca żadnych ograniczeń, więc jakby dobrze to kopało to na pewno by to kopało w piwnicach firmy i dało by to się odczuć na rynku kryptowalut.
thikim, 22 kwietnia 2021, 10:11
Nie do końca.
Jeśli masz superkomputer który możesz wynająć za jakąś kasę do poważnych rzeczy - to to robisz, bo jest to bardziej opłacalne niż kopanie krypto.
Jest cała masa bardziej dochodowych rzeczy niż kopanie krypto.
Ale kopanie ma jedną zaletę: kopać każdy może a nie każdy dostanie zlecenie za tysiące $ żeby udostępnić swój komp na parę "minut".
Od zwykłej karty to raczej na pewno jest szybszy. Przeciętny średniak graficzny to zysk 10 x w stosunku do przeciętnego procesora.
Ale od ASICów(iluś na jednej płytce) to już może być wolniejszy.
cyjanobakteria, 22 kwietnia 2021, 10:36
Na pewno byłby szybszy niż GPU, ale prawdopodobnie mniej wydajny energetycznie niż odpowiednik na kartach. Zwłaszcza jak potrafii przeprowadzać bardziej skomplikowane operacje niż mielenie haszy z losowych danych w zamian za spalony węgiel. Tak na szybko GeForce GTX 1080 ma 7.2 miliona tranzystorów, a ten superkomputer 2.6 miliarda.
tempik, 22 kwietnia 2021, 10:51
Ale patrzysz na to jak na kogoś kto kupuje ten sprzęt za tysiące czy mln $ i ma dylemat jak najlepiej wykorzystać maszynę którą kupił. A tu mamy firmę która je produkuje, i nie robią tego robotnicy, miesiącami wykuwając ze stali. Mają gotowy projekt, matrycę, skalibrowane maszyny. Ile ich fizycznie kosztuje żeby wsadzić zamiast 2 to 200 plastrów krzemu? więc jaki problem za śmieszne pieniądze(koszt krzemu, prądu) zrobić sobie 1000x takich z przeznaczeniem na kopanie, żeby pochwalić się akcjonariuszom wielokrotnie większym zyskiem?