Ntụziaka nka

Kubernetes maka ibu ọrụ ML

Kubernetes bụ sistemụ mepere emepe nke na-ahazi oge, akpịrịkpa ma malitegharịa mmemme etinyere n'ofe ụyọkọ igwe.

Nchịkọta

Kubernetes bụ sistemụ mepere emepe nke na-ahazi oge, akpịrịkpa ma malitegharịa mmemme etinyere n'ofe ụyọkọ igwe. Maka mmụta igwe, ọ na-ahapụ ndị otu na-ebukọta ọrụ ọzụzụ agụụ GPU na sava ihe nlere anya na-enwe mmetụta n'ime ngwaike nkekọrịta na-enweghị ilekọta sava ọ bụla.

Kubernetes maka ML Workloads bụ ngọngọ ụlọ ọrụ nka nke na-emetụta ịdịmma nlereanya, ọnụ ahịa akụrụngwa, latency, na ntụkwasị obi na ọnụ ọgụgụ.

Ime miri emi

Ewubere na Google iji rụọ ọrụ webụ, Kubernetes na-ewere ụyọkọ gị dị ka otu nnukwu ọdọ mmiri CPU, ebe nchekwa na GPU, wee kpebie igwe na-agba akpa ọ bụla. Ndị otu ML na-adabere na ya n'ihi na ibu ọrụ na-agbawa ma dị oke ọnụ: ọsọ ọzụzụ nwere ike ịchọ GPU asatọ maka awa isii, ọ nweghị ihe ọ bụla. Kubernetes na-ahazi nhazi nke na-agbanye n'ọnụ ọnụ nke nwere GPU n'efu, na mgbe ọrụ ahụ kwụsịrị, ọ na-ahapụ ngwaike ahụ. Ọ na-emekwa ka sava inference dị ndụ, na-amalitegharị arịa ndị mebiri emebi ma na-agbasa ụdị oyiri n'ofe igwe maka nkwụghachi. Ngwá ọrụ ndị e wuru n'elu, dị ka Kubeflow, Ray, na KServe, na-agbakwunye ML kpọmkwem akụkụ dị ka ndị na-ahụ maka ọzụzụ na-ekesa, hyperparameter tuning, na autoscaling model endpoints, ya mere, ndị ọkà mmụta sayensị data na-arụ ọrụ na abstractions dị elu kama ịbụ raw YAML.

Nghọta nka nka

Kubernetes na-ekenye GPUs site na ngwa mgbakwunye ngwaọrụ na-akpọsa akụrụngwa dị ka nvidia.com/gpu, nke onye nhazi ihe kwekọrọ na arịrịọ pọd. Taints na nnabata na-eme ka ọrụ CPU dị ọnụ ala pụọ ​​na ọnụ ọnụ GPU dị ọnụ ahịa, ebe ndị na-ahọpụta ọnụ na iwu mmekọrịta na-etinye ọzụzụ na ngwaike akọwapụtara. Maka ọzụzụ multi-GPU, ndị na-arụ ọrụ na-emepụta otu pọd na-achọpụta ibe ha ma na-agba ọsọ dịka PyTorch DDP ma ọ bụ Horovod, na-agbanwe gradients na netwọk ụyọkọ site na iji NCCL.

Ịkwado Kubernetes maka ibu ọrụ ML

Kubernetes bụ sistemụ mepere emepe nke na-ahazi oge, akpịrịkpa ma malitegharịa mmemme etinyere n'ofe ụyọkọ igwe. Maka mmụta igwe, ọ na-ahapụ ndị otu na-ebukọta ọrụ ọzụzụ agụụ GPU na sava ihe nlere anya na-enwe mmetụta n'ime ngwaike nkekọrịta na-enweghị ilekọta sava ọ bụla. Kubernetes maka ML Workloads bụ ngọngọ ụlọ ọrụ nka nke na-emetụta ịdịmma nlereanya, ọnụ ahịa akụrụngwa, latency, na ntụkwasị obi na ọnụ ọgụgụ. Iji wulite nghọta miri emi, na-emeso Kubernetes maka ML Workloads dị ka ihe nlere anya na-arụ ọrụ, ọ bụghị otu njirimara: kọwaa nsonaazụ achọrọ, dokwuo anya echiche, ma kewaa ihe sistemụ nwere ike ime nke ọma na ihe ka na-achọ mkpebi ndị ọkachamara.

Na omume, otu siri ike na-eji Kubernetes maka ML Workloads na-ebuli ụkpụrụ ụlọ, data na akụrụngwa megide ntụkwasị obi na ọnụ ahịa. Ha na-edepụta njirisi ịga nke ọma nke ọma, nwalee megide data ziri ezi yana usoro ọrụ, yana na-atụgharị dabere na usoro ọdịda ahụrụ karịa karịa mmeri otu oge. Nke a bụ ebe nghọta usoro ihe atụ na-atụgharị ghọọ ike na-adịgide adịgide n'ofe ngwaahịa, amụma na arụmọrụ.

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'otu oge ahụ, ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara. Ụzọ kachasị na-agbanwe agbanwe bụ ijikọ ọsọ nnwale na ịdọ aka ná ntị ọchịchị: ndị na-anya ụgbọ elu, ijide ihe akaebe, bipụta ndekọ mkpebi, na na-aga n'ihu na-emelite nchekwa dị ka omume nlereanya, atụmanya ndị ọrụ, na ihe iwu chọrọ.

Mmetụta atụmatụ

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ.

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ.

Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta.

Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Ọdịnihu nke Kubernetes maka ibu ọrụ ML

Na-atụ anya mwekota ML siri ike: nhazi ndị otu na-ebupụta akwụkwọ nkuzi niile na-ekesa n'otu oge ma ọ bụ ọ bụla ma ọlị, nkesa GPU nke dị obere na nke oge ka ọtụtụ ọrụ ọkụ na-ekekọrịta otu kaadị, yana ntinye topology-mara nke na-asọpụrụ njikọ njikọ NVLink ngwa ngwa. Ntụnye na-enweghị nkesa na Kubernetes, na-eme ka njedebe njedebe na efu n'etiti arịrịọ, na-eto eto. Dị ka balloon ụdị, ndị na-eme nhazi na-ahaziwanye n'ofe ọtụtụ ụyọkọ na igwe ojii, na usoro nkekọrịta ziri ezi dabere na kwụ n'ahịrị dị ka Kueue na Volcano na-aghọ ọkọlọtọ maka ijikwa ike GPU dị ụkọ.

Mmejuputa n'ezie n'ụwa

Ụlọ nyocha na-eji Kubeflow Training Operator malite ọrụ ọzụzụ nkesa 32-GPU PyTorch gafee ọnụ anọ, wee hapụ GPU ndị ahụ na-akpaghị aka mgbe ọ na-agbakọta.

Otu ụlọ ọrụ e-azụmahịa na-eji KServe na-eme ihe nrịbama ya, nke na-emezigharị ihe n'oge ire ọkụ wee laghachi n'otu abalị.

Otu ụlọ akụ na-arụ ọrụ ị nweta akara abalị dị ka Kubernetes CronJobs, na-adọba ha n'ahịrị na oghere CPU mapụtara ka ha ghara ịsọ mpi na okporo ụzọ na-eje ozi ụbọchị ehihie.

Mmalite na-eji Ray na Kubernetes na-eme mkpochapụ hyperparameter yiri ya, na-atụgharị ọtụtụ pọd nnwale dị mkpụmkpụ n'oge ntụpọ iji belata ọnụ ahịa.

Usoro mmejuputa

Kubernetes maka ibu ọrụ ML na omume

Ụlọ nyocha na-eji Kubeflow Training Operator malite ọrụ ọzụzụ nkesa 32-GPU PyTorch gafee ọnụ anọ, wee hapụ GPU ndị ahụ na-akpaghị aka mgbe ọ na-agbakọta.

Ụlọ nyocha na-eji Kubeflow Training Operator malite ọrụ ọzụzụ nkesa 32-GPU PyTorch n'ofe anọ, na-ahapụkwa GPU na-akpaghị aka mgbe ọ na-ejikọta otu ìgwè na-enwetakarị nsonaazụ ka mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-eme ka ụzọ mmadụ na-arịwanye elu maka ikpe ikpe, ma soro ma uru mmepụta na ụgwọ njehie na oge.

Kubernetes maka ibu ọrụ ML na omume

Otu ụlọ ọrụ e-azụmahịa na-eji KServe na-eme ihe nrịbama ya, nke na-emezigharị ihe n'oge ire ọkụ wee laghachi n'otu abalị.

Otu ụlọ ọrụ e-azụmahịa na-eji ụdị nkwanye ya na KServe na-eme ihe, nke na-emeghachi ihe n'oge ire ọkụ na azụ azụ n'otu abalị, otu na-enwetakarị nsonaazụ kacha mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-eme ka ụzọ mmadụ si abawanye maka ikpe ikpe, ma soro ma uru nrụpụta yana ụgwọ njehie n'oge.

Kubernetes maka ibu ọrụ ML na omume

Otu ụlọ akụ na-arụ ọrụ ị nweta akara abalị dị ka Kubernetes CronJobs, na-adọba ha n'ahịrị na oghere CPU mapụtara ka ha ghara ịsọ mpi na okporo ụzọ na-eje ozi ụbọchị ehihie.

Otu ụlọ akụ na-arụ ọrụ nchịkọta abalị dị ka Kubernetes CronJobs, na-akwụ ha n'ahịrị na oghere CPU mapụtara ka ha ghara ịsọ mpi na-eje ozi okporo ụzọ ehihie na-enwetakarị nsonaazụ ka mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, debe ụzọ mmụba mmadụ maka ọnụ ọnụ, ma soro ma uru nrụpụta na ụgwọ njehie na oge.

Kubernetes maka ibu ọrụ ML na omume

Mmalite na-eji Ray na Kubernetes na-eme mkpochapụ hyperparameter yiri ya, na-atụgharị ọtụtụ pọd nnwale dị mkpụmkpụ n'oge ntụpọ iji belata ọnụ ahịa.

Mmalite na-eji Ray na Kubernetes na-agba ọsọ hyperparameter sweeps, na-atụgharị ọtụtụ pọd ule dị mkpirikpi na ọnọdụ ntụpọ iji belata ọnụ ahịa otu na-enwetakarị nsonaazụ kacha mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, debe ụzọ ịrị elu mmadụ maka ikpe ọnụ, ma soro ma uru nrụpụta na ụgwọ njehie n'ime oge.

Ihe ize ndụ & okporo ụzọ nche

!

Ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara.

!

A na-eledakarị ihe akụrụngwa na ụgwọ ọrụ anya.

!

Ọdịiche nchekwa na nleba anya nwere ike itolite ka sistemu na-adịwanye mgbagwoju anya.

Map mmejuputa

1

Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya.

Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

2

Benchmark n'okpuru ibu dị adị na ọnọdụ data.

Benchmark n'okpuru ibu dị adị na ọnọdụ data. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

3

Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ.

Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

4

Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa.

Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

Nọgide na-eme nchọpụta