Résumé
Recomputation biy tàmbali (gradient wala checkpointing biy tàmbali) dafay sakkanal mémoire GPU bi ci diiru tàggat yaram, ci sànni diggante yi ci paas bi ci kanam, ba noppi di leen xaymawaat ci paas bi ci ginaaw. Dafay wecci yeneen ordinatër ngir mëna tàggat model yu gëna mag wala sequence yu gëna gudd ci benn hardware bi.
Liggéeyukaay ak xaymawaat kompromis ab bloku tabax xarala la buy indi jafe-jafe ci kalite model bi, njëgu infrastructure bi, latency bi, ak wóor ci escale bi.
Plongeur bu xóot
Backpropagation mingi soxla aktivaasioŋ forward-pass ngir xayma gradient yi, kon ci default bépp couche génne dañu koy denc - njëgu mémoire bu rëy buy màgg ak dayo model bi, dayo batch bi, ak guddaayi sequence bi. Recomputation biy aktive dafay denc yenn tensor 'checkpoint' (dafay faral di nekk ay peggu layer) ba noppi sànni leneen li. Ci diiru paas bi ci ginaaw, dafay defaraat xayma bi ci kanam diggante poñ yi ngir defaraat activasioŋ yiñ sànni ci laaj. Resultaa bi gëna mag mooy suñu defee ay checkpoint ci bépp sqrt (N) layer, mémoire bi dafay wàcci ba O (sqrt (N)) ci noonu lañuy yokk lu tollu ci benn pass forward (~ 33% gëna calcul). Variante yuñ tànnee recompute ops yu yomb waaye-memoire-diis (lu melni bàyyi xel wala dropout) ci cache yu seer yi, jot li gëna bari ci memory bi ñuy sakkanal ngir gëna néew recompute.
Gis-gis xarala
Kompromis bi gëna am solo mooy memory ak FLOPs. Recomputation bu mat sëkk dafay yokk benn pass ci kanam ci jéego bu nekk (~30-40% gëna ndànk) waaye mën na dagg mémoire biy aktive ci xeetu magnitude. Demaas bu am xel bi mooy tànneef xool: ràññee ops yu am memory bu yaatu waaye xayma-yomb (softmax, layernorm, GELU, poñ yi) ak xaymawaat ñoom rek, boole ci denc njariñu GEMM yu seer yi ci cache - wàññi xayma bu yàqu.
Xam kompromis yi
Recomputation biy tàmbali (gradient wala checkpointing biy tàmbali) dafay sakkanal mémoire GPU bi ci diiru tàggat yaram, ci sànni diggante yi ci paas bi ci kanam, ba noppi di leen xaymawaat ci paas bi ci ginaaw. Dafay wecci yeneen ordinatër ngir mëna tàggat model yu gëna mag wala sequence yu gëna gudd ci benn hardware bi. Liggéeyukaay ak xaymawaat kompromis ab bloku tabax xarala la buy indi jafe-jafe ci kalite model bi, njëgu infrastructure bi, latency bi, ak wóor ci escale bi. Ngir tabax xam-xam bu xóot, jàppee Activation Recomputation Tradeoffs ni xeetu liggéey, du benn man-man: leeral njariñ yi nga bëgg, leeral xalaat yi, ak tàqale li sistem bi mëna def ci anam wu wóor ak li ba leegi soxla àtteb kàngam.
Ci jëf, ekip yu am doole yiy jëfandikoo Njàngalem Recomputation ngir gëna baaxal architecture, done, ak tànneefi infrastructure ci wàllu wóor ak njëg. Dañuy bind kritër yu leer ngir am ndam, natt leen ci done yu dëggu ak def liggéey, ba noppi ñu baamtu ci anamu ñàkka mëna seetlu, du ci benn yoon benchmark wins. Mooy barab bi xam-xam theorie bi di soppiku nekk kàttan buy yàgg ci produit yi, ci politik yi ak ci liggéey yi.
Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw. Ci jamano jooju, Optimisation benn benchmark mën na nëbb ñakk kattan yu gëna yaatu ci sistem bi. Xeetu jëf bi gëna dëgër mooy boole gaawaayu jàngat ak disipline nguur: doxal pilote, jàpp firnde, siiwal dogal yi, ak wéy di yeesal kaaraange gi ci anam wi ñuy doxalee, li jëfandikukat bi di xaar, ak sàrti sàrt yi di jëm kanam.
njeextalu pexe
Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw.
Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Njàngalem xarala yi dafay jàppale ekip yi ñu tànn li gën, te baña yam ci li gëna bees daal.
Njàngalem xarala yi dafay jàppale ekip yi ñu tànn li gën, te baña yam ci li gëna bees daal. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Tanneef yu gëna baax ci wàllu ingeñër dina wàññi jafe-jafe yi ci wàllu wóor ci liggéey bi.
Tanneef yu gëna baax ci wàllu ingeñër dina wàññi jafe-jafe yi ci wàllu wóor ci liggéey bi. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Doxal ci àdduna dëgg
Taggat ab transformatër bu rëy budul mëna ànd ci saytu bépp blok layer
Jëfandikoo torch.utils.checkpoint bu PyTorch ngir ëmb ay bloku trafo ak dagg mémoire biy tàmbali
Tanneef xaymawaat bàyyi xel/softmax ci Megatron-LM ngir denc mémoire ak yeexal bu néew
Aktiwise guddaayi sekans yu gëna gudd ci budget GPU bu takku ci xaymawaat aktivaasioŋ yi ci barabu denc leen
Modèlu jëfandikoo
Aktiwisaasioŋ xaymawaat kompromis ci jëf
Taggat ab transformatër bu rëy budul mëna ànd ci saytu bépp blok layer.
Taggat transformateur bu mag bu mënul méngoo ak checkpointing bu nekk ci block layer Teams yi dañuy faral di am njariñ yu gëna baax suñu joxee thresholds yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.
Aktiwisaasioŋ xaymawaat kompromis ci jëf
Jëfandikoo torch.utils.checkpoint bu PyTorch ngir ëmb ay bloku trafo ak dagg mémoire biy tàmbali.
Jëfandikoo torch.utils.checkpoint bu PyTorch ngir ëmb ay bloku transformatër ak dagg memory biy tàmbali Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.
Aktiwisaasioŋ xaymawaat kompromis ci jëf
Tanneef xaymawaat bàyyi xel/softmax ci Megatron-LM ngir denc mémoire ak yeexal bu néew.
Recomputation bu tanneef ci bàyyi xel / softmax ci Megatron-LM ngir sakkanal mémoire ak yeexal bu néew Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.
Aktiwisaasioŋ xaymawaat kompromis ci jëf
May guddaayi sekans yu gëna gudd ci budget GPU bu takku ci xaymawaat aktivaasioŋ yi ci barabu denc leen.
Fexe ba guddaay yu gëna gudd ci benn budget GPU bu takku ci recomputing activations ci barabu denc leen. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee thresholds yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.
Risk yi ak balustrade yi
Optimize benn benchmark mën na nëbb ñakk kattan yu gëna yaatu ci sistem bi.
Njëg li ñuy fay ci infrastructure yi ak ci toppatoo dañuy faral di suufeel.
Bu sistem yi di gëna xawa jafee xam, jafe-jafe yi am ci wàllu kaaraange ak seetlu mën nañu gëna bari.
Roadmap ngir samp gi
Mandargal latency, kalite, ak njëg yi laata ngay jëfandikoo.
Mandargal latency, kalite, ak njëg yi laata ngay jëfandikoo. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.
Benchmark ci biir sargal ak done yu dëggu.
Benchmark ci biir sargal ak done yu dëggu. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.
Jumtukaay bi di saytu njuumte yi, derive bi ak njeextalu jëfandikukat bi.
Jumtukaay bi di saytu njuumte yi, derive bi ak njeextalu jëfandikukat bi. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.
Waajal rollback ak yooni tontu ci jafe-jafe yi laata ngay eskale.
Waajal rollback ak yooni tontu ci jafe-jafe yi laata ngay eskale. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.