Ntụziaka nka

Tensor Parallelism maka Model buru ibu

Ụzọ isi kewaa mgbakọ na mwepụ n'ime otu neural-network oyi akwa gafee ọtụtụ GPU ka ihe nlereanya buru ibu maka otu ngwaọrụ ka nwere ike na-agba ọsọ.

Nchịkọta

Ụzọ isi kewaa mgbakọ na mwepụ n'ime otu neural-network oyi akwa gafee ọtụtụ GPU ka ihe nlereanya buru ibu maka otu ngwaọrụ ka nwere ike na-agba ọsọ. Ọ dị mkpa n'ihi na ụdị oke nwere ọtụtụ narị ijeri paramita nke ọ nweghị otu GPU nwere ike ijide ma ọ bụ gbakọọ ngwa ngwa naanị ya.

Tensor Parallelism for Large Models bụ ngọngọ ụlọ ọrụ nka nke na-emetụta ịdịmma nlereanya, ọnụ ahịa akụrụngwa, nkwụsịtụ, na ntụkwasị obi n'ọ̀tụ̀tụ̀.

Ime miri emi

Tensor parallelism (nke a na-akpọkwa intra-layer model parallelism) na-emebi matrices dị arọ nke ọ bụla n'ofe GPU kama itinye akwa niile na ngwaọrụ dị iche iche. N'ime ihe ngbanwe, nnukwu nnukwu matrix multiplications — nlebara anya nlebara anya na ntinye MLP na-aga n'ihu — na-ekewa: dịka ọmụmaatụ, a na-ekewa matrix mbụ nke MLP site na kọlụm na nke abụọ site na ahịrị, yabụ GPU ọ bụla na-agbakọ iberi na otu mbelata niile na-ejikọta nsonaazụ. A na-ekewa nlebara anya n'ofe isi, na GPU nke ọ bụla na-ejikwa obere ihe. N'ihi na GPU ọ bụla na-eme akụkụ nke oyi akwa ọ bụla n'otu oge, tensor parallelism na-ebelata ebe nchekwa GPU ọ bụla ma na-agbakọ ọsọ ọsọ, mana ọ na-achọ nkwurịta okwu ugboro ugboro na bandwidth dị elu n'etiti GPUs oyi akwa ọ bụla. Ọ bụ ya mere a na-ejikarị emechi ya n'ime ọnụ ọnụ nke NVLink jikọtara ya na pipeline na data myirịta maka ọzụzụ buru ibu na ọrụ ije ozi.

Nghọta nka nka

Aghụghọ ahụ, nke Megatron-LM na-ewu ewu, na-ahọrọ akụkụ nkebi ka nkwurịta okwu dị ntakịrị. Ịkewaa kọlụm matriks nke mbụ MLP na-eme ka GPU ọ bụla tinye ihe na-adịghị adị na mpaghara na-enweghị mmekọrịta; ikewa nke abụọ n'ahịrị-amamihe pụtara na ihe nrụpụta chọrọ naanị otu-belata iji chịkọta arụpụtaghị akụkụ. N'ihi ya, oyi akwa ọ bụla na-ebute ihe dị ka abụọ na-ebelata (n'ihu) na abụọ (azụ). N'ihi na mkpokọta ndị a na-eme oyi akwa ọ bụla, latency na-achịkwa - yabụ tensor parallelism na-ebi n'azụ njikọ intra-node ngwa ngwa dị ka NVLink kama iji nwayọọ nwayọọ na-abanye n'ime netwọk.

Nnabata Tensor Parallelism maka Model buru ibu

Ụzọ isi kewaa mgbakọ na mwepụ n'ime otu neural-network oyi akwa gafee ọtụtụ GPU ka ihe nlereanya buru ibu maka otu ngwaọrụ ka nwere ike na-agba ọsọ. Ọ dị mkpa n'ihi na ụdị oke nwere ọtụtụ narị ijeri paramita nke ọ nweghị otu GPU nwere ike ijide ma ọ bụ gbakọọ ngwa ngwa naanị ya. Tensor Parallelism for Large Models bụ ngọngọ ụlọ ọrụ nka nke na-emetụta ịdịmma nlereanya, ọnụ ahịa akụrụngwa, nkwụsịtụ, na ntụkwasị obi n'ọ̀tụ̀tụ̀. Iji wuo nghọta miri emi, na-emeso Tensor Parallelism for Large Models dị ka ihe nlereanya na-arụ ọrụ, ọ bụghị otu njirimara: kọwaa nsonaazụ achọrọ, dokwuo anya echiche, ma kewaa ihe usoro ahụ nwere ike ime nke ọma na ihe ka na-achọ mkpebi ndị ọkachamara.

Na omume, otu ndị siri ike na-eji Tensor Parallelism maka nnukwu Model na-ebuli ụlọ, data, na nhọrọ akụrụngwa megide ntụkwasị obi na ọnụ ahịa. Ha na-edepụta njirisi ịga nke ọma nke ọma, nwalee megide data ziri ezi yana usoro ọrụ, yana na-atụgharị dabere na usoro ọdịda ahụrụ karịa karịa mmeri otu oge. Nke a bụ ebe nghọta usoro ihe atụ na-atụgharị ghọọ ike na-adịgide adịgide n'ofe ngwaahịa, amụma na arụmọrụ.

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'otu oge ahụ, ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara. Ụzọ kachasị na-agbanwe agbanwe bụ ijikọ ọsọ nnwale na ịdọ aka ná ntị ọchịchị: ndị na-anya ụgbọ elu, ijide ihe akaebe, bipụta ndekọ mkpebi, na na-aga n'ihu na-emelite nchekwa dị ka omume nlereanya, atụmanya ndị ọrụ, na ihe iwu chọrọ.

Mmetụta atụmatụ

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ.

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ.

Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta.

Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Ọdịnihu nke Tensor Parallelism maka nnukwu Model

Myirịta tensor na-anọgide na ntọala mana ọ na-ejikọta ya na '3D parallelism' (tensor + pipeline + data) yana jikọtara ya na myirịta ndị ọkachamara maka ụdị ngwakọta-nke ndị ọkachamara. Frameworks dị ka Megatron-LM, DeepSpeed ​​​​na vLLM na-arụ ọrụ sharding. Ka GPU na-ejikọta (NVLink, NVSwitch) na akwa anya na-agba ọsọ ọsọ, oke oke ọnụ na-ada jụụ, na-enye ohere ka ndị otu tensor yiri. Na-atụ anya myikọ akpaaka ka amamihe karịa nke na-ahọrọ akụkụ shard na nha otu iji wedata nzikọrịta ozi maka ụyọkọ topology enyere.

Mmejuputa n'ezie n'ụwa

Ọzụzụ ihe atụ 175B-parameter site n'ịkọwa matrices ịdị arọ nke oyi akwa ọ bụla n'ofe 8 GPU n'otu ọnụ ejikọrọ NVLink site na iji Megatron-LM.

Na-eje ozi ụdị nkata 70B-parameter na vLLM nwere tensor_parallel_size=4 ka nha ahụ dabara n'ofe GPU anọ wee zaghachi ozugbo.

Nleba anya nkewa nke ntụgharị na-eche n'ofe GPUs ka ngwaọrụ ọ bụla gbakọọ nkeji, wee na-emekọ ihe maka oyi akwa na-esote.

Na-ejikọta myirịta tensor n'ime ọnụ ọnụ na myirịta pipeline n'ofe ọnụ iji zụọ ụdị paramita trillion na nnukwu ụyọkọ GPU.

Usoro mmejuputa

Tensor Parallelism maka nnukwu Model na omume

Ọzụzụ ihe atụ 175B-parameter site n'ịkọwa matrices ịdị arọ nke oyi akwa ọ bụla n'ofe 8 GPU n'otu ọnụ ejikọrọ NVLink site na iji Megatron-LM.

Ọzụzụ ihe atụ 175B-parameter site n'ịkọwa matrices dị arọ nke oyi akwa ọ bụla n'ofe 8 GPUs n'otu ọnụ ụzọ njikọ NVLink na-eji Megatron-LM Team na-enwetakarị nsonaazụ kacha mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, debe ụzọ mmụba mmadụ maka oke ọnụ, ma soro ma uru nrụpụta na ụgwọ njehie n'ime oge.

Tensor Parallelism maka nnukwu Model na omume

Na-eje ozi ụdị nkata 70B-parameter na vLLM nwere tensor_parallel_size=4 ka nha ahụ dabara n'ofe GPU anọ wee zaghachi ozugbo.

Ije ozi ụdị nkata 70B-parameter na vLLM na tensor_parallel_size = 4 yabụ nha dabara n'ofe GPU anọ wee zaghachi ozugbo Otu egwuregwu na-enweta nsonaazụ kacha mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, debe ụzọ mmụba mmadụ maka ọnụ ọnụ, ma soro ma uru nrụpụta yana ụgwọ njehie n'ime oge.

Tensor Parallelism maka nnukwu Model na omume

Nleba anya nkewa nke ntụgharị na-eche n'ofe GPUs ka ngwaọrụ ọ bụla gbakọọ nkeji, wee na-emekọ ihe maka oyi akwa na-esote.

Nleba anya nleba anya na-atụgharị n'isi n'ofe GPUs ka ngwaọrụ ọ bụla na-agbakọ obere ihe, wee nweta nsonaazụ maka oyi akwa na-esote Otu na-enwetakarị nsonaazụ kacha mma mgbe ha kọwapụta ọnụ ụzọ dị mma n'ihu, debe ụzọ mmụba mmadụ maka ikpe ọnụ, ma soro ma uru nrụpụta na ụgwọ njehie n'oge.

Tensor Parallelism maka nnukwu Model na omume

Na-ejikọta myirịta tensor n'ime ọnụ ọnụ na myirịta pipeline n'ofe ọnụ iji zụọ ụdị paramita trillion na nnukwu ụyọkọ GPU.

Ijikọta tensor parallelism n'ime ọnụ na pipeline myirịta n'ofe ọnụ iji zụọ trillion-parameter model na nnukwu GPU ụyọkọ Otu dị iche iche na-enwetakarị nsonaazụ ka mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-eme ka ụzọ mmadụ si abawanye maka ọnụ okwu, ma soro ma uru nrụpụta na ụgwọ njehie n'ime oge.

Ihe ize ndụ & okporo ụzọ nche

!

Ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara.

!

A na-eledakarị ihe akụrụngwa na ụgwọ ọrụ anya.

!

Ọdịiche nchekwa na nleba anya nwere ike itolite ka sistemu na-adịwanye mgbagwoju anya.

Map mmejuputa

1

Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya.

Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

2

Benchmark n'okpuru ibu dị adị na ọnọdụ data.

Benchmark n'okpuru ibu dị adị na ọnọdụ data. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

3

Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ.

Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

4

Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa.

Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

Nọgide na-eme nchọpụta