Superkomputer RSC od Meta gotowy do pracy z nowym typem ML

Właściciel Facebooka, firma Meta poinformowała, że tworzy najnowocześniej na świecie superkomputer AI Research SuperCluster (RSC). Przeznaczeniem superkomputera są badania nad sztuczną inteligencją. Dzięki nowej maszynie Meta dołączyła do takich firm jak Microsoft i InVidia, które już wcześniej ogłosiły posiadanie ultraszybkiej maszyny obliczeniowej.

Zakończeniu projektu zaplanowano na połowę 2022 roku. Badacze jednak już dzisiaj zaczęli wykorzystywać RSC do trenowania dużych modeli przetwarzania języka naturalnego (NLP) i wizji komputerowej. Modele mają nawet biliony parametrów.

Jakie jest przeznaczenie RSC w Meta?

RSC pomoże naukowcom Meta AI budować nowe i jeszcze lepsze wielojęzyczne modele AI. Mogą one uczyć się na bazie ogromnej ilości przykładów, analizują zarówno tekst, jak i obrazy oraz wideo.

Przykład? Superkomputer RSC będzie potrafił np. zbudować zupełnie nowe systemy sztucznej inteligencji uwzględniające m.in. tłumaczenia głosowe real-time dla różnorodnych grup odbiorców mówiących innym językami. Dzięki modelowi użytkownicy końcowi będą mogli współpracować ze sobą np. w projekcie badawczym czy grać razem w grę AR.

Wg plany Meta dzięki RSC możliwe stanie się moderowanie treści w platformie Facebook, w tym m.in. rozpoznawanie tzw. mowny nienawiści.

Ostatecznie, prace przy RSC mają utorować drogę do jeszcze innej platformy – Metaversum. To właśnie przy niej ważną rolę będą odgrywać aplikacje i produkty wykorzystujące sztuczną inteligencję oraz AR.

Wyzwania dla inteligentnych algorytmów: lepsze rozumienie mowy

Czy rozpoznawanie mowy może działać poprawnie nawet w niesprzyjających temu warunkach, takich jak np. duży hałas w tle? Zadaniem badaczy z Meta jak najbardziej. NLP ma również rozumieć coraz więcej języków, w także dialektów i odmiennych akcentów. Kolejne duże wyzwanie to m.in. robotyka (ucieleśniona sztuczna inteligencja) oraz multimodalna sztuczna inteligencja. Dopiero rozwój we wszystkich tych aspektach pomoże ludziom wykonać przydatne zadania w prawdziwym świecie.

Kluczowa infrastruktura

Infrastruktura obliczeniowa o wysokiej wydajności jest kluczowym elementem w szkoleniu dużych modeli. Pierwszą generację tej infrastruktury zaprojektowano w 2017 roku. Składa się z 22 000 procesorów graficznych NVIDIA V100 Tensor Core w jednym klastrze, który wykonuje 35 000 zadań szkoleniowych dziennie. Do tej pory infrastruktura ta wyznaczała poprzeczkę badaczom Meta pod względem wydajności, niezawodności i produktywności.

Na początku 2020 roku podjęto jednak decyzję, że najlepszym sposobem na przyspieszenie postępu będzie zaprojektowanie nowej infrastruktury obliczeniowej od podstaw, wykorzystującą nową technologię GPU i sieci szkieletowej. Celem dla nowej infrastruktury miało być trenowanie modeli o ponad bilionie parametrów na zestawach danych o wielkości jednego eksabajta.

Budowa superkomputera od Meta

Superkomputery AI są budowane przez łączenie wielu procesorów graficznych w węzły obliczeniowe, które następnie łączy się za pomocą wysokowydajnej struktury sieciowej. To umożliwia szybką komunikację między tymi procesorami graficznymi. RSC obejmuje obecnie łącznie 760 systemów NVIDIA DGX A100 jako węzły obliczeniowe, co daje w sumie 6080 procesorów graficznych — przy czym każdy procesor graficzny A100 jest mocniejszy niż V100 używany w naszym poprzednim systemie. Każdy DGX komunikuje się za pośrednictwem dwupoziomowej struktury Clos firmy NVIDIA Quantum 1600 Gb/s InfiniBand, która nie ma nadsubskrypcji. Warstwa pamięci masowej RSC obejmuje 175 petabajtów pamięci Pure Storage FlashArray, 46 petabajtów pamięci podręcznej w systemach Penguin Computing Altus i 10 petabajtów Pure Storage FlashBlade.

Wczesne testy RSC, w porównaniu ze starszą infrastrukturą produkcyjną i badawczą Meta, wykazały, że nowa wersja obsługuje procesy przetwarzania obrazu komputerowego do 20x szybciej. Jednocześnie obsługuje bibliotekę zbiorowej komunikacji NVIDIA (NCCL) ponad 9x szybciej i szkoli modele NLP na dużą skalę 3x szybciej. Oznacza to, że model z dziesiątkami miliardów parametrów może zakończyć trening w ciągu 3 tygodni. Dla porównania wcześniej zajmowało to aż 9 tygodni.

Czy RSC rzeczywiście będzie jednym z najnowocześniejszych i najszybszych na świecie superkomputerów? Tego mamy dowiedzieć się już w połowie 2022 roku, bo właśnie planowane jest zakończenie projektu.

Porównaj rozwiązanie Meta z architekturą Google’a – Pathways oraz modelem języka generatywnego od Microsoft i Nvidii.

Źródło: https://ai.facebook.com/blog/ai-rsc/