Résumé
Checkpointing gradient (ñu koy woowe itam checkpointing activation) ab pexe la buy sakkanal mémoire biy sànni activation yu bari yi ci digg bi ci diir bi ñuy jaar ci kanam, ba noppi di leen xaymaat ci diir bi ñuy tasaare ci ginaaw. Daf lay may nga tàggat reso yu gëna xóot te gëna mag ci jënd ay ordinatër yu gëna bari ngir wàññi memory bi.
Saytu gradient ab bloku tabax xarala la buy indi njeexital ci kalite model bi, njëgu infrastructure bi, yeexal bi, ak wóor ci eskaal bi.
Plongeur bu xóot
Taggat reso neuronal yi dañuy denc bépp couche buy tàmbali ci diiru paas bi ci kanam ndax backpropagation daf leen soxla ngir xayma gradient yi. Ci model yu xóot yi, liggéey yooyu ñooy ëpp doole ci mémoire bi. Lu moy loolu, checkpoint gradient dafay denc aktivaasioŋ yi ci ay 'checkpoint' yu néew, ba noppi sànni leneen li. Su backprop yeggee ci gox buñu bàyyi activation yi, dafay defaraat calcul bi ci kanam ngir segment boobu rek ngir defaraat limu soxla, ba noppi dem. Ak checkpoints yuñ def ci lu tollu ci bepp couche square-de-N, mémoire ngir activations dafay wàcci ci komànd N dem ci komànd square-root-of-N, ci noonu la calcul di yokk lu tollu ci benn pass forward (ci diggante 20-30% gëna néew). Loolu dafay tax ñu mëna jëfandikoo ay batch yu gëna mag wala ay transformatër yu gëna xóot ci benn GPU.
Gis-gis xarala
Pexem dafay jëfandikoo kompromis diggante waxtu ak fàttaliku. Denc bépp aktivaasioŋ lu gaaw la waaye dafay xiif ci mémoire; defaraat leen lu yomb la ci accelerator yu bees yi soo koy méngale ak njëgu jeexal memory bi. Kadre yu melni PyTorch (torch.utils.checkpoint) dañuy laxas benn modle suko defee ñu denc limu génne ci kanam waaye li ci biir dañu koy xaymaat ci ginaaw. Tann plasement checkpoint lu am solo la: ab diggante bu tolloo ci sqrt(N) segments dafay wàññi memory bi yépp ci di yokk benn pass forward bu gëna mag ci calcul bi.
am xam-xam ci saytu gradient
Checkpointing gradient (ñu koy woowe itam checkpointing activation) ab pexe la buy sakkanal mémoire biy sànni activation yu bari yi ci digg bi ci diir bi ñuy jaar ci kanam, ba noppi di leen xaymaat ci diir bi ñuy tasaare ci ginaaw. Daf lay may nga tàggat reso yu gëna xóot te gëna mag ci jënd ak jaay ordinatër yu gëna bari ngir jëfandikoo memory bu néew. Saytu gradient ab bloku tabax xarala la buy indi njeexital ci kalite model bi, njëgu infrastructure bi, yeexal bi, ak wóor ci eskaal bi. Ngir tabax xam-xam bu xóot, jàppal Gradient Checkpointing ni xeetu liggéey, du benn man-man: leeral njariñ yi nga bëgg, leeral xalaat yi, ba noppi tàqale li sistem bi mëna def ci anam wu wóor ak li ba leegi soxla àtteb kàngam.
Ci jëf, ekip yu am doole yiy jëfandikoo Gradient Checkpointing dañuy gëna baaxal arsitektir bi, done yi, ak tànneefi infrastructure yi ci wàllu wóor ak njëg. Dañuy bind kritër yu leer ngir am ndam, natt leen ci done yu dëggu ak def liggéey, ba noppi ñu baamtu ci anamu ñàkka mëna seetlu, du ci benn yoon benchmark wins. Mooy barab bi xam-xam theorie bi di soppiku nekk kàttan buy yàgg ci produit yi, ci politik yi ak ci liggéey yi.
Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw. Ci jamano jooju, Optimisation benn benchmark mën na nëbb ñakk kattan yu gëna yaatu ci sistem bi. Xeetu jëf bi gëna dëgër mooy boole gaawaayu jàngat ak disipline nguur: doxal pilote, jàpp firnde, siiwal dogal yi, ak wéy di yeesal kaaraange gi ci anam wi ñuy doxalee, li jëfandikukat bi di xaar, ak sàrti sàrt yi di jëm kanam.
njeextalu pexe
Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw.
Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Njàngalem xarala yi dafay jàppale ekip yi ñu tànn li gën, te baña yam ci li gëna bees daal.
Njàngalem xarala yi dafay jàppale ekip yi ñu tànn li gën, te baña yam ci li gëna bees daal. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Tanneef yu gëna baax ci wàllu ingeñër dina wàññi jafe-jafe yi ci wàllu wóor ci liggéey bi.
Tanneef yu gëna baax ci wàllu ingeñër dina wàññi jafe-jafe yi ci wàllu wóor ci liggéey bi. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Doxal ci àdduna dëgg
Taggat ab transformatër bu xóot ak dayo lote bu gëna mag ci benn GPU ci sànni ak xaymawaat aktivaasioŋu couche yi.
Modèlu gis-gis bu jaar yoon ci kaw nataal yu am dayo bu kawe, fu kàrtu aktivasioŋ yi di fees ci mémoire GPU bi.
Transformatëri kanam yuy laxasu ñuy may gradient_checkpointing=Dëgg ngir méngoo ak xeetu paramet yu am miliyaar ci diiru ajustement bu baax.
boole checkpointing ak FSDP suko defee parametre yi ak activation yi nekk ñu tuuti, loolu mooy tax ñu mëna tàggat modeli làkk yu yaatu lool.
Modèlu jëfandikoo
Saytu gradient ci jëf
Taggat ab transformatër bu xóot ak dayo lote bu gëna mag ci benn GPU ci sànni ak xaymawaat aktivaasioŋu couche yi.
Taggat transformateur bu xóot ak dayo bu gëna mag ci benn GPU ci sànni ak recomputing layer activations Teams yi dañuy faral di am njariñ yu gëna baax suñu joxee thresholds yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.
Saytu gradient ci jëf
Modèlu gis-gis bu jaar yoon ci kaw nataal yu am dayo bu kawe, fu kàrtu aktivasioŋ yi di fees ci mémoire GPU bi.
Modèlu gis-gis bu jaar yoon ci nataal yu am resolusioŋ bu kawe, fu kàrtu aktivasioŋ yi di gëna bari ci mémoire GPU. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit yi ak njëgu njuumte yi ci diir bi.
Saytu gradient ci jëf
Transformatëri kanam yuy laxasu ñuy may gradient_checkpointing=Dëgg ngir méngoo ak xeetu paramet yu am miliyaar ci diiru ajustement bu baax.
Transformatëri kanam yuy laxasu may gradient_checkpointing = Dëgg ngir méngoo ak xeetu paramet yu bari ci jamonoy fine-tuning Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee ay pursàntaasu kalite ci kanam, tëye yoonu eskalaasioŋ nit ngir jafe-jafe yi, ba noppi topp njariñu liggéey bi ak njëgu njuumte yi ci diir bi.
Saytu gradient ci jëf
boole checkpointing ak FSDP suko defee parametre yi ak activation yi nekk ñu tuuti, loolu mooy tax ñu mëna tàggat modeli làkk yu yaatu lool.
Teg checkpointing ak FSDP suko defee parametre yi ak activations yépp nekk lu ndaw, may tàggat xeetu làkk yu yaatu lool. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit yi ak njëgu njuumte yi ci diir bu gàtt.
Risk yi ak balustrade yi
Optimize benn benchmark mën na nëbb ñakk kattan yu gëna yaatu ci sistem bi.
Njëg li ñuy fay ci infrastructure yi ak ci toppatoo dañuy faral di suufeel.
Bu sistem yi di gëna xawa jafee xam, jafe-jafe yi am ci wàllu kaaraange ak seetlu mën nañu gëna bari.
Roadmap ngir samp gi
Mandargal latency, kalite, ak njëg yi laata ngay jëfandikoo.
Mandargal latency, kalite, ak njëg yi laata ngay jëfandikoo. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.
Benchmark ci biir sargal ak done yu dëggu.
Benchmark ci biir sargal ak done yu dëggu. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.
Jumtukaay bi di saytu njuumte yi, derive bi ak njeextalu jëfandikukat bi.
Jumtukaay bi di saytu njuumte yi, derive bi ak njeextalu jëfandikukat bi. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.
Waajal rollback ak yooni tontu ci jafe-jafe yi laata ngay eskale.
Waajal rollback ak yooni tontu ci jafe-jafe yi laata ngay eskale. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.