MWONGOZO wa Kiufundi

Rafu za Mafunzo ya DeepSpeed na Megatron

DeepSpeed (Microsoft) na Megatron-LM (NVIDIA) ni rafu za programu zinazofanya miundo ya mafunzo yenye mabilioni ya vigezo katika maelfu ya GPU kuwezekana.

Muhtasari

DeepSpeed (Microsoft) na Megatron-LM (NVIDIA) ni rafu za programu zinazofanya miundo ya mafunzo yenye mabilioni ya vigezo katika maelfu ya GPU kuwezekana. Bila wao, mifano ya leo ya mipaka haikuweza kutoshea kwenye kumbukumbu au kumaliza mafunzo kwa wakati unaofaa.

Rafu za Mafunzo ya DeepSpeed ​​na Megatron ni jengo la kiufundi linaloathiri ubora wa muundo, gharama ya miundombinu, muda wa kusubiri na kutegemewa kwa kiwango.

Dive ya kina

Kufunza muundo mkubwa kwenye GPU moja hauwezekani kwa sababu uzani, viwango vya juu, na hali za viboreshaji hazilingani. Rafu hizi hugawanya kazi kwenye GPU nyingi. Megatron-LM ilianzisha usambamba wa tensor, ikikatwa kuzidisha matriki ya mtu binafsi ndani ya kila safu kwenye GPU, pamoja na usawa wa bomba, ambayo huweka tabaka tofauti kwenye GPU tofauti. Mchango wa saini ya DeepSpeed ​​ni ZeRO (Zero Redundancy Optimizer), ambayo huharibu majimbo ya kiboreshaji, gradient, na vigezo kwenye GPU badala ya kuviiga, kukata kumbukumbu kwa kila GPU kwa kasi. Hizi mbili mara nyingi huunganishwa (Megatron-DeepSpeed) kutoa mafunzo kwa miundo kama vile BLOOM-176B na Megatron-Turing NLG. Pia huongeza usahihi-mchanganyiko, ukaguzi wa kuwezesha, na upakiaji kwa CPU au NVMe ili miundo mikubwa ifunze kwenye maunzi machache.

Ufahamu wa Kiufundi

ZeRO ina hatua tatu za kuongeza uokoaji wa kumbukumbu: Majimbo ya viboreshaji vya hatua ya 1, Hatua ya 2 pia inapunguza viwango vya juu, na Hatua ya 3 hupasua vigezo vyenyewe, na kuvikusanya kulingana na mahitaji wakati wa kupita mbele na nyuma. Ikiunganishwa na usawa wa tensor (safu ya ndani) na usawa wa bomba (safu baina), hii huunda 'usambamba wa 3D.' Mvutano mkuu ni mawasiliano ya juu: kila mgawanyiko wa shard huongeza trafiki ya GPU-to-GPU, kwa hivyo wahandisi hurekebisha mgawanyiko ili kuweka viungo vya NVLink na InfiniBand kwa haraka.

Kujua Rafu za Mafunzo ya DeepSpeed na Megatron

DeepSpeed ​​(Microsoft) na Megatron-LM (NVIDIA) ni rafu za programu zinazofanya miundo ya mafunzo yenye mabilioni ya vigezo katika maelfu ya GPU kuwezekana. Bila wao, mifano ya leo ya mipaka haikuweza kutoshea kwenye kumbukumbu au kumaliza mafunzo kwa wakati unaofaa. Rafu za Mafunzo ya DeepSpeed ​​na Megatron ni jengo la kiufundi linaloathiri ubora wa muundo, gharama ya miundombinu, muda wa kusubiri na kutegemewa kwa kiwango. Ili kujenga uelewaji wa kina, chukulia Rafu za Mafunzo ya DeepSpeed ​​na Megatron kama kielelezo cha uendeshaji, si kipengele kimoja: kufafanua matokeo yanayotarajiwa, kufafanua mawazo, na kutenganisha kile ambacho mfumo unaweza kufanya kwa uhakika na kile ambacho bado kinahitaji uamuzi wa kitaalamu.

Kwa mazoezi, timu dhabiti zinazotumia Rafu za Mafunzo ya DeepSpeed ​​na Megatron huboresha usanifu, data na chaguo za miundombinu dhidi ya kutegemewa na gharama. Huandika vigezo dhahiri vya kufaulu, kujaribu dhidi ya data halisi na mtiririko wa kazi, na kurudia kulingana na mifumo ya kushindwa iliyoonekana badala ya ushindi wa mara moja wa benchmark. Hapa ndipo uelewa wa kinadharia unapogeuka kuwa uwezo wa kudumu katika bidhaa, sera na uendeshaji.

Maamuzi ya usanifu huendesha utendaji na gharama ya uendeshaji kwa miaka. Wakati huo huo, Kuboresha kipimo kimoja kunaweza kuficha udhaifu mpana wa mfumo. Mbinu thabiti zaidi ni kuchanganya kasi ya majaribio na nidhamu ya utawala: kuendesha majaribio, kunasa ushahidi, kuchapisha kumbukumbu za maamuzi, na kuendelea kusasisha ulinzi huku tabia ya kielelezo, matarajio ya watumiaji na mahitaji ya udhibiti yanapobadilika.

Athari za kimkakati

Maamuzi ya usanifu huendesha utendaji na gharama ya uendeshaji kwa miaka.

Maamuzi ya usanifu huendesha utendaji na gharama ya uendeshaji kwa miaka. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Elimu ya kiufundi husaidia timu kuchagua safu sahihi, sio tu mpya zaidi.

Elimu ya kiufundi husaidia timu kuchagua safu sahihi, sio tu mpya zaidi. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Chaguo bora za uhandisi hupunguza matukio ya kuaminika katika uzalishaji.

Chaguo bora za uhandisi hupunguza matukio ya kuaminika katika uzalishaji. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Mustakabali wa Rafu za Mafunzo ya DeepSpeed na Megatron

Tarajia muunganisho mkali zaidi na FSDP asili ya PyTorch (Fully Sharded Data Parallel), ambayo ilifyonza mawazo mengi ya ZeRO, ikitia ukungu mstari kati ya rundo la utafiti na mifumo msingi. Mbinu zinazoendeshwa na mkusanyaji na wapangaji wa usambamba otomatiki hulenga kuondoa urekebishaji wa mikono. Vikundi vya mafunzo vinapokua kuelekea mamia ya maelfu ya vichapuzi, uvumilivu wa hitilafu, kuongeza kasi, na mawasiliano yanayoingiliana na hesabu huwa mipaka kuu ya uhandisi, pamoja na usaidizi wa maunzi mapya kama vile NVIDIA Blackwell na chipsi maalum za mafunzo.

Utekelezaji wa Ulimwengu Halisi

Kufunza muundo wa BLOOM-176B wa lugha nyingi wazi kwa kutumia rafu iliyounganishwa ya Megatron-DeepSpeed ​​kwenye mamia ya GPU.

Microsoft na NVIDIA inafunza muundo wa NLG wa Megatron-Turing wa 530-bilioni kwa usambamba wa 3D.

ZeRO-Offload inawaruhusu watafiti kurekebisha vizuri miundo ya mabilioni ya vigezo kwenye GPU ya kituo kimoja cha kazi kwa kumwaga majimbo ya viboreshaji kwenye RAM ya CPU.

Kwa kutumia kiashirio cha kuwezesha katika rafu hizi ili kutoshea madirisha marefu ya muktadha kwa kukokotoa kuwezesha tena badala ya kuzihifadhi zote.

Miundo ya Utekelezaji

Rafu za Mafunzo ya DeepSpeed ​​na Megatron katika mazoezi

Kufunza muundo wa BLOOM-176B wa lugha nyingi wazi kwa kutumia rafu iliyounganishwa ya Megatron-DeepSpeed ​​kwenye mamia ya GPU.

Kufunza muundo wazi wa lugha nyingi wa BLOOM-176B kwa kutumia mrundikano wa Megatron-DeepSpeed ​​katika mamia ya Timu za GPUs kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora wa juu, kuweka njia ya kupanda juu ya matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

Rafu za Mafunzo ya DeepSpeed ​​na Megatron katika mazoezi

Microsoft na NVIDIA inafunza muundo wa NLG wa Megatron-Turing wa 530-bilioni kwa usambamba wa 3D.

Microsoft na NVIDIA inafunza muundo wa Megatron-Turing NLG wa kigezo cha bilioni 530 na Timu za Usambamba za 3D kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya juu vya ubora mbele, kuweka njia ya kupanda juu ya matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

Rafu za Mafunzo ya DeepSpeed ​​na Megatron katika mazoezi

ZeRO-Offload inawaruhusu watafiti kurekebisha vizuri miundo ya mabilioni ya vigezo kwenye GPU ya kituo kimoja cha kazi kwa kumwaga majimbo ya viboreshaji kwenye RAM ya CPU.

ZeRO-Offload inawaruhusu watafiti kusanifu miundo ya mabilioni ya vigezo kwenye GPU ya kituo kimoja cha kazi kwa kumwaga majimbo ya viboreshaji kwa Timu za RAM za CPU kwa kawaida hupata matokeo bora zaidi wanapofafanua viwango vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa visa vikali, na kufuatilia faida zote za tija na gharama za makosa kwa wakati.

Rafu za Mafunzo ya DeepSpeed ​​na Megatron katika mazoezi

Kwa kutumia kiashirio cha kuwezesha katika rafu hizi ili kutoshea madirisha marefu ya muktadha kwa kukokotoa kuwezesha tena badala ya kuzihifadhi zote.

Kutumia kiashirio cha kuwezesha katika rafu hizi ili kutoshea madirisha marefu ya muktadha kwa kukokotoa uwezeshaji badala ya kuzihifadhi Timu zote kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya juu vya ubora mbele, kuweka njia ya kupanda juu ya matukio makali, na kufuatilia faida za tija na gharama za hitilafu kwa wakati.

Hatari & Walinzi

!

Kuboresha kiwango kimoja kunaweza kuficha udhaifu mkubwa wa mfumo.

!

Gharama za miundombinu na matengenezo mara nyingi hupunguzwa.

!

Mapengo ya usalama na uonekanaji yanaweza kukua kadiri mifumo inavyozidi kuwa ngumu.

Ramani ya Utekelezaji

1

Bainisha muda, ubora na malengo ya gharama kabla ya utekelezaji.

Bainisha muda, ubora na malengo ya gharama kabla ya utekelezaji. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

2

Benchmark chini ya mzigo halisi na hali ya data.

Benchmark chini ya mzigo halisi na hali ya data. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

3

Ufuatiliaji wa ala kwa makosa, kuteleza, na athari za mtumiaji.

Ufuatiliaji wa ala kwa makosa, kuteleza, na athari za mtumiaji. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

4

Tayarisha njia za urejeshaji na majibu ya matukio kabla ya kuongeza ukubwa.

Tayarisha njia za urejeshaji na majibu ya matukio kabla ya kuongeza ukubwa. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

Endelea Kuchunguza