Nchịkọta
Ọkachamara myirịta na-ekewa a ngwakọta-nke-ọkachamara nlereanya nke ọtụtụ nri-n'ihu 'ọkachamara' gafee dị iche iche GPUs otú onye ọ bụla na-ejigide naanị iberi nke parameters. Ọ bụ isi ihe na-enye ụdị MoE-trillion-parameter MoE dị ọnụ ala, ebe ọ bụ na ọ bụ naanị ndị ọkachamara ole na ole na-agba ọsọ n'otu akara.
Ọkachamara Parallelism for MoE Ije Ozi bụ teknuzu ụlọ ngọngọ na-emetụta nlereanya àgwà, akụrụngwa ego, latency, na ntụkwasị obi na ọnụ ọgụgụ.
Ime miri emi
Ngwakọta-nke ọkachamara (MoE) oyi akwa na-edochi otu nnukwu netwọọdụ na-ebugharị na ọtụtụ ndị nta (ndị ọkachamara) gbakwunyere rawụta na-ewere top-k (mgbe 1 ma ọ bụ 2) ọkachamara kwa token. Ọkachamara parallelism (EP) na-etinye ndị ọkachamara dị iche iche na GPU dị iche iche. Na ntinye, rawụta na-ekpebi ndị ọkachamara nke ọ bụla token chọrọ, mgbe ahụ usoro nkwurịta okwu niile na-eme ka akara ngosi na GPU jigide ndị ọkachamara ha họọrọ, na-agba FFN, wee megharịa nsonaazụ azụ. Nke a na-eme ka ihe nlereanya nwee nnukwu mkpokọta paramita (sparse) ka ọ na-arụ ọrụ naanị obere akụkụ maka akara ngosi (FLOP dị ala). Ụdị dị ka Mixtral 8x7B, DeepSeek-V3, na GPT-OSS na-eji nke a. Akụkụ siri ike na-edozi ibu n'ofe ndị ọkachamara na ihe abụọ dị ọnụ ahịa niile na-efu kwa oyi akwa.
Nghọta nka nka
Mekaniki bụ isi bụ mkpokọta abụọ na-emekọ ihe niile n'otu oyi akwa MoE: izipu (ziga ndị ọkachamara ha akara) wee jikọta (ịchịkọta nsonaazụ azụ). N'ihi na njem na-adabere na data, ọnụ ọgụgụ nke token na-akụta ọkachamara ọ bụla dịgasị iche iche, na-akpata enweghị ahaghị nhata na 'ndị na-agba ọsọ'. Sistemu ije ozi na-agbakwunye ihe ikike, ndị na-echekwa ndị ọkachamara, na mwụda ma ọ bụ padding iji dobe GEMMs (matrix multiplies) otu, ma na-ejikarị nkwurịta okwu na-emekọ ihe niile na mgbakọ ọkachamara iji zochie latency.
Parallelism ọkachamara ọkachamara maka ije ozi MoE
Ọkachamara myirịta na-ekewa a ngwakọta-nke-ọkachamara nlereanya nke ọtụtụ nri-n'ihu 'ọkachamara' gafee dị iche iche GPUs otú onye ọ bụla na-ejigide naanị iberi nke parameters. Ọ bụ isi ihe na-enye ụdị MoE-trillion-parameter MoE dị ọnụ ala, ebe ọ bụ na ọ bụ naanị ndị ọkachamara ole na ole na-agba ọsọ n'otu akara. Ọkachamara Parallelism for MoE Ije Ozi bụ teknuzu ụlọ ngọngọ na-emetụta nlereanya àgwà, akụrụngwa ego, latency, na ntụkwasị obi na ọnụ ọgụgụ. Iji wulite nghọta miri emi, mesoo ndị ọkachamara Parallelism for MoE Ije ozi dị ka ihe nlereanya na-arụ ọrụ, ọ bụghị otu akụkụ: kọwaa nsonaazụ achọrọ, dokwuo anya echiche, ma kewaa ihe sistemụ nwere ike ime nke ọma na ihe ka na-achọ mkpebi ndị ọkachamara.
Na omume, otu ndị siri ike na-eji ọkachamara Parallelism maka MoE ije ozi na-ebuli ụkpụrụ ụlọ, data na akụrụngwa megide ntụkwasị obi na ọnụ ahịa. Ha na-edepụta njirisi ịga nke ọma nke ọma, nwalee megide data ziri ezi yana usoro ọrụ, yana na-atụgharị dabere na usoro ọdịda ahụrụ karịa karịa mmeri otu oge. Nke a bụ ebe nghọta usoro ihe atụ na-atụgharị ghọọ ike na-adịgide adịgide n'ofe ngwaahịa, amụma na arụmọrụ.
Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'otu oge ahụ, ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara. Ụzọ kachasị na-agbanwe agbanwe bụ ijikọ ọsọ nnwale na ịdọ aka ná ntị ọchịchị: ndị na-anya ụgbọ elu, ijide ihe akaebe, bipụta ndekọ mkpebi, na na-aga n'ihu na-emelite nchekwa dị ka omume nlereanya, atụmanya ndị ọrụ, na ihe iwu chọrọ.
Mmetụta atụmatụ
Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ.
Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.
Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ.
Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.
Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta.
Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.
Mmejuputa n'ezie n'ụwa
Ijere Mixtral 8x7B ozi gafee 2-4 GPUs site n'itinye 2-4 nke ndị ọkachamara 8 ya na ngwaọrụ ọ bụla.
DeepSeek-V3 na-eji uzo nwere oke ọnụ iji kpuchie ọnụ ọnụ ole nke ndị ọkachamara token na-agbatị, na-egbutu ọnụ ọnụ ihe niile.
Iji vLLM ma ọ bụ SGLang ọkachamara-ụdị yiri ya iji kwado ihe ngosi 200B+ na-enweghị atụ na otu ọnụ 8-GPU
Na-ejikọta myirịta ndị ọkachamara na tensor parallelism na nlebara anya n'ọkwa n'ime ngwakọ EP + TP ngwakọ.
Usoro mmejuputa
Ọkachamara Parallelism maka MoE Ije ozi na omume
Ijere Mixtral 8x7B ozi gafee 2-4 GPUs site n'itinye 2-4 nke ndị ọkachamara 8 ya na ngwaọrụ ọ bụla.
Ijere Mixtral 8x7B n'ofe 2-4 GPUs site n'itinye 2-4 nke ndị ọkachamara 8 ya na ngwaọrụ ọ bụla Otu egwuregwu na-enwetakarị nsonaazụ kacha mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, debe ụzọ mmụba mmadụ maka ikpe ọnụ, ma soro ma uru nrụpụta yana ụgwọ njehie n'oge.
Ọkachamara Parallelism maka MoE Ije ozi na omume
DeepSeek-V3 na-eji okporo ụzọ nwere oke ọnụ iji kpuchie ọnụ ọnụ ole ndị ọkachamara token na-agbatị, na-egbutu ọnụ ọnụ ihe niile.
DeepSeek-V3 na-eji uzo nwere oke ọnụ iji kpuchie ọnụ ọgụgụ ole ndị ọkachamara token na-agbatị, ịbelata ọnụ ahịa niile na otu niile na-enweta nsonaazụ kacha mma mgbe ha kọwapụtara ọnụ ụzọ dị mma n'ihu, debe ụzọ ịrị elu mmadụ maka ikpe ihu, wee soro ma uru nrụpụta yana ụgwọ njehie n'ime oge.
Ọkachamara Parallelism maka MoE Ije ozi na omume
Iji vLLM ma ọ bụ SGLang ọkachamara-ụkpụrụ yiri ya iji kwado ụdị 200B+ na-adịghị mma na otu ọnụ 8-GPU.
Iji vLLM ma ọ bụ SGLang ọkachamara-ụdị ụdị iji kwado ụdị 200B + na-adịghị ahụkebe na otu 8-GPU node Teams na-enwetakarị nsonaazụ ka mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-eme ka ụzọ mmadụ si abawanye maka ọnụ ọnụ, ma soro ma uru nrụpụta na ụgwọ njehie na-aga n'ihu oge.
Ọkachamara Parallelism maka MoE Ije ozi na omume
Na-ejikọta myirịta ndị ọkachamara na tensor parallelism na nlebara anya n'ígwé nke ngwakọ EP+TP.
Ijikọta myirịta ndị ọkachamara na tensor parallelism na nlebara anya n'ígwé na ngwakọ EP + TP na-ebugharị otu na-enwetakarị nsonaazụ kacha mma mgbe ha kọwapụtara ọnụ ụzọ dị mma n'ihu, debe ụzọ nkwalite mmadụ maka ikpe ọnụ, wee soro ma uru nrụpụta yana ụgwọ njehie n'ime oge.
Ihe ize ndụ & okporo ụzọ nche
Ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara.
A na-eledakarị ihe akụrụngwa na ụgwọ ọrụ anya.
Ọdịiche nchekwa na nleba anya nwere ike itolite ka sistemu na-adịwanye mgbagwoju anya.
Map mmejuputa
Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya.
Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.
Benchmark n'okpuru ibu dị adị na ọnọdụ data.
Benchmark n'okpuru ibu dị adị na ọnọdụ data. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.
Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ.
Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.
Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa.
Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.