Microsoft i NVIDIA prezentują MT-NLG – potężny model języka generatywnego
Model Megatron-Turing Natural Language Generation (MT-NLG) oparty na technologii DeepSpeed i Megatron to wspólne dzieło Microsoft i INVIDIA. Jak deklarują obie firmy to najpotężniejszy model monolityczny głębokiego uczenia się, który wykorzystuje mechanizm uwagi, ważąc w różny sposób istotność każdej części danych wejściowych (ang. monolithic transformer language model). Model MT-NLG ma za sobą trening z udziałem 530 mld parametrów. Ma być przełomem w pracach nad przetwarzaniem języka naturalnego.
Microsoft już wcześniej stworzyło model Turing-NLG, a NVIDIA – Megatron-LM. Oba rozwiązania są jednak jedynie namiastką siły nowego Megatron-Turing Natural Language Generation, którego zastosowania są jeszcze potężniejsze. Nowy model potrafi bowiem operować na języku i realizować polecenia, automatycznie uzupełniać zdania, zadawać pytania i na nie odpowiadać. Radzi sobie też z wnioskowaniem.
Rola transformer language models w NLP
Transformer language models w przetwarzaniu języka naturalnego (NLP) przyczyniły się do szybkiego postępu w ostatnich latach, napędzanego obliczeniami na dużą skalę, dużymi zestawami danych oraz zaawansowanymi algorytmami i oprogramowaniem do uczenia tych modeli.
Modele językowe z dużą liczbą parametrów, większą ilością danych i dłuższym czasem szkolenia uzyskują wyższej jakości, bardziej zniuansowane rozumienie języka, dlatego też liczba parametrów w modelach w ostatnim czasie rosła w tempie wykładniczym (wykres 1.)
Na jakim sprzęcie i jak trenowano model MT-NLG?
Już samo zaplecze technologiczne jest imponujące: MT-NLG był szkolony na superkomputerze NVIDIA Selene – systemie bazującym na 560 serwerach DGX A100. Każdy z nich składa się z 8 akceleratorów graficznych A100 z 80 GB pamięci VRAM. Wszystkie 4480 akceleratory są połączone ze sobą poprzez NVLink oraz NVSwitch, uzupełnione o procesory AMD EPYC 7v742. Dodatkowo do szkolenia wykorzystano bibliotekę DeepSpeed, dzięki czemu trening odbył się na bazie 1,5 TB danych.
MT-NLG szkolono na ogromnym zbiorze danych „The Pile” z 825 GB tekstu. Ten zbiór jest dziełem badaczy działających pod nazwą Eleuther AI.
Baza danych treningowych – co jeszcze o niej wiemy?
Badacze z Eleuther AI prowadzą prace nad modelami języków open source. Do tej pory zgromadzili tekst na który składa się już 270 mld rekordów. Niestety, danych tych w żaden sposób nie przefiltrowano. Oznacza to, że zasilają je m.in. także treści, które mogą być obraźliwe czy nawet rasistowskie. NVIDIA i Microsoft deklarują jednak, że mają zamiar rozwiązać ten problem.
Źródło: Blog NVIDIA.