Nchịkọta
DeepSpeed (Microsoft) na Megatron-LM (NVIDIA) bụ sọftụwia sọftụwia na-eme ka ụdị ọzụzụ nwere ijeri paramita gafere puku kwuru puku GPU ga-ekwe omume. Na-enweghị ha, ụdị ókèala nke oge a enweghị ike dabara na ebe nchekwa ma ọ bụ mechie ọzụzụ n'oge kwesịrị ekwesị.
DeepSpeed na Megatron Training Stacks bụ ngọngọ ụlọ ọrụ nka nke na-emetụta ịdịmma nlereanya, ọnụ ahịa akụrụngwa, nkwụsịtụ, na ntụkwasị obi n'ogo.
Ime miri emi
Ịzụ nnukwu ihe nlereanya na otu GPU agaghị ekwe omume n'ihi na ihe ọ̀tụ̀tụ̀ dị arọ, gradients, na steeti ndị na-ebuli elu adabaghị. Nchịkọta ndị a kewara ọrụ ahụ n'ọtụtụ GPU. Megatron-LM sụrụ ụzọ tensor parallelism, na-egbutu ọnụọgụ matriks nke ọ bụla n'ime oyi akwa ọ bụla n'ofe GPUs, yana myirịta pipeline, nke na-etinye ọkwa dị iche iche na GPU dị iche iche. Ntinye mbinye aka DeepSpeed bụ ZeRO (Zero Redundancy Optimizer), nke shards optimizer steeti, gradients, na parampat gafee GPU kama ịmegharị ha, belata ebe nchekwa GPU ọ bụla nke ọma. A na-ejikọta ha abụọ (Megatron-DeepSpeed ) iji zụọ ụdị dịka BLOOM-176B na Megatron-Turing NLG. Ha na-agbakwunyekwa nkenke-agwakọta-nkenke, nyocha ọrụ, na mbupụ na CPU ma ọ bụ NVMe nnukwu ụdị na-azụ na ngwaike nwere oke.
Nghọta nka nka
ZeRO nwere usoro atọ nke ịbawanye nchekwa nchekwa ebe nchekwa: Stage 1 shards optimizer states, Stage 2 also shards gradients, na Stage 3 shards the paramates n'onwe ha, na-achịkọta ha na-achọrọ n'oge ngafe na azụ. Ejikọtara ya na tensor parallelism (intra-layer) na pipeline parallelism (inter-layer), nke a na-etolite '3D parallelism.' Isi esemokwu bụ nzikọrịta ozi n'elu: nkewa shard ọ bụla na-agbakwunye okporo ụzọ GPU-na-GPU, yabụ ndị injinia na-atụgharị nkewa ahụ iji mee ka njikọ NVLink na InfiniBand zuo ngwa ngwa.
Mastering DeepSpeed na Megatron Ọzụzụ Stacks
DeepSpeed (Microsoft) na Megatron-LM (NVIDIA) bụ sọftụwia sọftụwia na-eme ka ụdị ọzụzụ nwere ijeri paramita gafere puku kwuru puku GPU ga-ekwe omume. Na-enweghị ha, ụdị ókèala nke oge a enweghị ike dabara na ebe nchekwa ma ọ bụ mechie ọzụzụ n'oge kwesịrị ekwesị. DeepSpeed na Megatron Training Stacks bụ ngọngọ ụlọ ọrụ nka nke na-emetụta ịdịmma nlereanya, ọnụ ahịa akụrụngwa, nkwụsịtụ, na ntụkwasị obi n'ogo. Iji wulite nghọta miri emi, na-emeso DeepSpeed na Megatron Training Stacks dị ka ihe nlereanya na-arụ ọrụ, ọ bụghị otu njirimara: kọwaa nsonaazụ achọrọ, dokwuo anya echiche, ma kewaa ihe sistemụ nwere ike ime nke ọma na ihe ka na-achọ mkpebi ndị ọkachamara.
Na omume, otu ndị siri ike na-eji DeepSpeed na Megatron Training Stacks na-ebuli ụkpụrụ ụlọ, data na akụrụngwa megide ntụkwasị obi na ọnụ ahịa. Ha na-edepụta njirisi ịga nke ọma nke ọma, nwalee megide data ziri ezi yana usoro ọrụ, yana na-atụgharị dabere na usoro ọdịda ahụrụ karịa karịa mmeri otu oge. Nke a bụ ebe nghọta usoro ihe atụ na-atụgharị ghọọ ike na-adịgide adịgide n'ofe ngwaahịa, amụma na arụmọrụ.
Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'otu oge ahụ, ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara. Ụzọ kachasị na-agbanwe agbanwe bụ ijikọ ọsọ nnwale na ịdọ aka ná ntị ọchịchị: ndị na-anya ụgbọ elu, ijide ihe akaebe, bipụta ndekọ mkpebi, na na-aga n'ihu na-emelite nchekwa dị ka omume nlereanya, atụmanya ndị ọrụ, na ihe iwu chọrọ.
Mmetụta atụmatụ
Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ.
Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.
Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ.
Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.
Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta.
Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.
Mmejuputa n'ezie n'ụwa
Ọzụzụ ụdị BLOOM-176B nwere ọtụtụ asụsụ mepere emepe site na iji nchịkọta Megatron-DeepSpeed jikọtara ọnụ gafere ọtụtụ narị GPU.
Microsoft na NVIDIA na-azụ ụdị Megatron-Turing NLG nke ijeri ijeri 530 nwere myirịta 3D.
ZeRO-Offload na-ahapụ ndị nyocha ka ha dezie ụdị ọnụọgụ ijeri ijeri na otu GPU na-arụ ọrụ site n'ịkwasa steeti ndị na-eme ka ọ dịkwuo mma na CPU RAM.
Iji nbanye nleba anya n'ime ngwugwu ndị a iji dabaa ogologo okirikiri windo site n'ịgbakọ ọrụ kama ịchekwa ha niile.
Usoro mmejuputa
DeepSpeed na Megatron Ọzụzụ Stacks na omume
Ọzụzụ ụdị BLOOM-176B nwere ọtụtụ asụsụ mepere emepe site na iji nchịkọta Megatron-DeepSpeed jikọtara ọnụ gafere ọtụtụ narị GPU.
Ịzụ ụdị BLOOM-176B na-emeghe ọtụtụ asụsụ na-eji nchịkọta Megatron-DeepSpeed na-ejikọta na narị otu narị GPUs na-enwetakarị nsonaazụ ka mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-edebe ụzọ mmụba mmadụ maka ọnụ okwu ọnụ, ma soro ma uru mmepụta na ụgwọ njehie na oge.
DeepSpeed na Megatron Ọzụzụ Stacks na omume
Microsoft na NVIDIA na-azụ ụdị Megatron-Turing NLG nke ijeri ijeri 530 nwere myirịta 3D.
Microsoft na NVIDIA na-azụ 530-billion-parameter Megatron-Turing NLG model na 3D parallelism Teams na-enwetakarị nsonaazụ ka mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-eme ka ụzọ mmadụ si abawanye maka ọnụ ọnụ, ma soro ma uru nrụpụta na ụgwọ njehie na oge.
DeepSpeed na Megatron Ọzụzụ Stacks na omume
ZeRO-Offload na-ahapụ ndị nyocha ka ha dezie ụdị ọnụọgụ ijeri ijeri na otu GPU na-arụ ọrụ site n'ịkwasa steeti ndị na-eme ka ọ dịkwuo mma na CPU RAM.
ZeRO-Offload na-ahapụ ndị na-eme nchọpụta ka ha dezie ụdị ijeri ijeri-parameter na otu GPU na-arụ ọrụ site n'ịkwasa steeti ndị na-eme ka CPU RAM dị mma na-enwetakarị nsonaazụ kacha mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-eme ka ụzọ mmadụ siwanye elu maka ikpe ikpe, ma soro ma uru mmepụta na ụgwọ njehie na oge.
DeepSpeed na Megatron Ọzụzụ Stacks na omume
Iji nbanye nleba anya n'ime ngwugwu ndị a iji dabaa ogologo okirikiri windo site n'ịgbakọ ọrụ kama ịchekwa ha niile.
Iji ntinye nlele na ngwugwu ndị a iji dabara na windo ndị dị ogologo site na ịmegharị mmegharị kama ịchekwa ha niile Otu egwuregwu na-enwetakarị nsonaazụ kacha mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, debe ụzọ mmụba mmadụ maka ikpe ọnụ, wee soro ma uru nrụpụta na ụgwọ njehie na oge.
Ihe ize ndụ & okporo ụzọ nche
Ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara.
A na-eledakarị ihe akụrụngwa na ụgwọ ọrụ anya.
Ọdịiche nchekwa na nleba anya nwere ike itolite ka sistemu na-adịwanye mgbagwoju anya.
Map mmejuputa
Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya.
Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.
Benchmark n'okpuru ibu dị adị na ọnọdụ data.
Benchmark n'okpuru ibu dị adị na ọnọdụ data. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.
Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ.
Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.
Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa.
Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.