Imọ Itọsọna

ZeRO ati Sharded Optimizers

ZeRO (Odo Redundancy Optimizer) imukuro isọdọtun iranti isọnu ti isọdọkan data nipa didin ipo iṣapeye, awọn gradients, ati awọn iwuwo kọja awọn GPUs.

Akopọ

ZeRO (Odo Redundancy Optimizer) imukuro isọdọtun iranti isọnu ti isọdọkan data nipa didin ipo iṣapeye, awọn gradients, ati awọn iwuwo kọja awọn GPUs. O jẹ ki o ṣe ikẹkọ awọn awoṣe nla pẹlu ayedero ti isọdọkan data ṣugbọn ida kan ti iranti fun-GPU.

ZeRO ati Sharded Optimizers jẹ bulọọki ile imọ-ẹrọ ti o ni ipa lori didara awoṣe, idiyele amayederun, lairi, ati igbẹkẹle ni iwọn.

Jin Dive

Ni afiwe data lasan, gbogbo GPU tọju ẹda kikun ti ipo iṣapeye, awọn gradients, ati awọn paramita, eyiti o jẹ apanirun pupọ, pataki fun Adam, nibiti ipo iṣapeju le jẹ ọpọlọpọ igba iwọn awoṣe funrararẹ. ZeRO, ti a ṣe nipasẹ Microsoft ni DeepSpeed, yọkuro apọju yii kuro nipa pipin awọn tenors wọnyi kọja awọn GPUs ki ẹrọ kọọkan ni bibẹ pẹlẹbẹ nikan. ZeRO wa ni awọn ipele ilọsiwaju mẹta: Ipele 1 ipo iṣapeye shards, Ipele 2 ṣe afikun sharding gradient, ati Ipele 3 shards awọn paramita funrara wọn. Bi o ṣe nilo, GPUs ṣajọ awọn ege ti o padanu nipasẹ ibaraẹnisọrọ, ṣe iṣiro, lẹhinna tu wọn silẹ. Abajade jẹ iranti kekere ti iyalẹnu fun GPU, ṣiṣe awọn bilionu- si ikẹkọ paramita aimọye, lakoko ti o tọju awoṣe siseto irọrun ti afiwe data.

Imọ-imọ-ẹrọ

ZeRO ṣowo ni afikun ibaraẹnisọrọ fun awọn ifowopamọ iranti. Ni Ipele 3, ṣaaju ki o to kọja siwaju Layer kan, gbogbo apejọ n gba awọn aye kikun ti Layer yẹn sori GPU kọọkan; lẹhinna awọn ege ti kii ṣe ohun ini jẹ asonu lati gba iranti pada. Awọn gradients jẹ pipinka-diẹ nitoribẹẹ GPU kọọkan n tọju bibẹ pẹlẹbẹ gradient nikan ni ibaamu awọn aye ti o ni. PyTorch's FSDP (Parded Data Parallel ni kikun) ṣe imuse imọran kanna ni abinibi, awọn modulu murasilẹ si shard ati atunṣatunṣe lori fo.

Mastering ZeRO ati Sharded Optimizers

ZeRO (Odo Redundancy Optimizer) imukuro isọdọtun iranti isọnu ti isọdọkan data nipa didin ipo iṣapeye, awọn gradients, ati awọn iwuwo kọja awọn GPUs. O jẹ ki o ṣe ikẹkọ awọn awoṣe nla pẹlu ayedero ti isọdọkan data ṣugbọn ida kan ti iranti fun-GPU. ZeRO ati Sharded Optimizers jẹ bulọọki ile imọ-ẹrọ ti o ni ipa lori didara awoṣe, idiyele amayederun, lairi, ati igbẹkẹle ni iwọn. Lati kọ oye ti o jinlẹ, tọju ZeRO ati Sharded Optimizers bi awoṣe iṣẹ, kii ṣe ẹya ẹyọkan: ṣalaye awọn abajade ti o fẹ, ṣalaye awọn arosọ, ati ya sọtọ ohun ti eto le ṣe ni igbẹkẹle lati ohun ti o tun nilo idajọ amoye.

Ni iṣe, awọn ẹgbẹ ti o lagbara ni lilo ZeRO ati Sharded Optimizers ṣe iṣapeye faaji, data, ati awọn yiyan amayederun lodi si igbẹkẹle ati idiyele. Wọn ṣe akọsilẹ awọn ibeere aṣeyọri ti o fojuhan, idanwo lodi si data ojulowo ati ṣiṣan iṣẹ, ati atunbere ti o da lori awọn ilana ikuna ti a ṣakiyesi dipo awọn bori ala-akoko kan. Eyi ni ibiti oye imọ-jinlẹ yipada si agbara ti o tọ kọja ọja, eto imulo, ati awọn iṣẹ ṣiṣe.

Awọn ipinnu faaji ṣe awakọ iṣẹ ati idiyele iṣẹ fun awọn ọdun. Ni akoko kanna, Imudara iwọn ala kan le tọju awọn ailagbara eto to gbooro. Ọna resilient julọ julọ ni lati darapọ iyara idanwo pẹlu ibawi ijọba: ṣiṣe awọn awakọ awakọ, mu ẹri mu, ṣe atẹjade awọn iwe ipinnu, ati imudojuiwọn awọn aabo nigbagbogbo bi ihuwasi awoṣe, awọn ireti olumulo, ati awọn ibeere ilana ti dagbasoke.

Ipa Ilana

Awọn ipinnu faaji ṣe awakọ iṣẹ ati idiyele iṣẹ fun awọn ọdun.

Awọn ipinnu faaji ṣe awakọ iṣẹ ati idiyele iṣẹ fun awọn ọdun. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.

Ẹkọ imọ-ẹrọ ṣe iranlọwọ fun awọn ẹgbẹ lati yan akopọ to tọ, kii ṣe ọkan tuntun nikan.

Ẹkọ imọ-ẹrọ ṣe iranlọwọ fun awọn ẹgbẹ lati yan akopọ to tọ, kii ṣe ọkan tuntun nikan. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.

Awọn yiyan imọ-ẹrọ to dara julọ dinku awọn iṣẹlẹ igbẹkẹle ni iṣelọpọ.

Awọn yiyan imọ-ẹrọ to dara julọ dinku awọn iṣẹlẹ igbẹkẹle ni iṣelọpọ. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.

Ojo iwaju ti ZeRO ati Sharded Optimizers

Sharding n di aiyipada fun ikẹkọ iwọn-nla ju aṣayan nla lọ. Reti isọpọ ti o jinlẹ pẹlu piparẹ (titari awọn ege si Sipiyu tabi NVMe nipasẹ ZeRO-Infinity), iṣakojọpọ ti o dara julọ ti gbogbo-kojọpọ ati idinku-tuka pẹlu iṣiro lati tọju idiyele wọn, ati awọn akojọpọ pẹlu tensor ati parallelism pipeline. Bii awọn awoṣe ti n dagba sii, awọn iṣapeye sharded iranti-daradara jẹ aringbungbun si ibamu wọn sori awọn isuna ohun elo ojulowo.

Real-World imuse

Lilo DeepSpeed ​​ZeRO Ipele 2 lati ṣe atunṣe awoṣe ede-ọpọ-bilionu-paramita kan ti yoo bibẹẹkọ ṣaju iranti GPU.

Ikẹkọ pẹlu PyTorch FSDP, eyiti o ṣaja awọn paramita, awọn gradients, ati ipo iṣapeye kọja awọn GPU ati pe o ṣajọ wọn fun Layer lori ibeere.

Nbere ZeRO-Offload lati Titari ipo iṣapeye si iranti Sipiyu, jẹ ki GPU kan ṣe ikẹkọ awoṣe ni ọpọlọpọ igba ti o tobi ju VRAM rẹ lọ.

Awoṣe iwọn aimọye-aimọye kan pẹlu ZeRO-Infinity nipasẹ ṣiṣan paramita shards lati ibi ipamọ NVMe nigbati GPU ati iranti Sipiyu ba jade.

Awọn Ilana imuse

ZeRO ati Sharded Optimizers ni asa

Lilo DeepSpeed ​​ZeRO Ipele 2 lati ṣe atunṣe awoṣe ede-ọpọ-bilionu-paramita kan ti yoo bibẹẹkọ ṣaju iranti GPU.

Lilo DeepSpeed ZeRO Ipele 2 lati ṣatunṣe awoṣe ede-ọpọ-bilionu-paramita kan ti yoo ṣe bibẹẹkọ ṣan awọn ẹgbẹ iranti GPU nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.

ZeRO ati Sharded Optimizers ni asa

Ikẹkọ pẹlu PyTorch FSDP, eyiti o ṣaja awọn paramita, awọn gradients, ati ipo iṣapeye kọja awọn GPU ati pe o ṣajọ wọn fun Layer lori ibeere.

Ikẹkọ pẹlu PyTorch FSDP, eyiti o ṣaja awọn aye, awọn gradients, ati ipo iṣapeye kọja awọn GPUs ati pejọ wọn fun ipele kan lori ibeere Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe ni akoko pupọ.

ZeRO ati Sharded Optimizers ni asa

Nbere ZeRO-Offload lati Titari ipo iṣapeye si iranti Sipiyu, jẹ ki GPU kan ṣe ikẹkọ awoṣe ni ọpọlọpọ igba ti o tobi ju VRAM rẹ lọ.

Lilo ZeRO-Offload lati Titari ipo iṣapeye si iranti Sipiyu, jẹ ki GPU kan ṣe ikẹkọ awoṣe ni ọpọlọpọ igba ti o tobi ju Awọn ẹgbẹ VRAM rẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe lori akoko.

ZeRO ati Sharded Optimizers ni asa

Awoṣe iwọn aimọye-aimọye kan pẹlu ZeRO-Infinity nipasẹ ṣiṣan paramita shards lati ibi ipamọ NVMe nigbati GPU ati iranti Sipiyu ba jade.

Fifẹ awoṣe paramita aimọye kan pẹlu ZeRO-Infinity nipasẹ ṣiṣan paramita shards lati ibi ipamọ NVMe nigbati GPU ati iranti Sipiyu ba jade Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe lori akoko.

Awọn ewu & Awọn ọna iṣọ

!

Ṣiṣepe ala-ilẹ kan le tọju awọn ailagbara eto ti o gbooro.

!

Awọn ohun elo amayederun ati awọn idiyele itọju nigbagbogbo ni aibikita.

!

Aabo ati awọn ela akiyesi le dagba bi awọn eto ṣe di eka sii.

Ilana Ilana imuse

1

Ṣetumo lairi, didara, ati awọn ibi-afẹde idiyele ṣaaju imuse.

Ṣetumo lairi, didara, ati awọn ibi-afẹde idiyele ṣaaju imuse. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

2

Aṣepari labẹ ẹru ojulowo ati awọn ipo data.

Aṣepari labẹ ẹru ojulowo ati awọn ipo data. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

3

Abojuto ohun elo fun awọn aṣiṣe, fiseete, ati ipa olumulo.

Abojuto ohun elo fun awọn aṣiṣe, fiseete, ati ipa olumulo. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

4

Mura ipadasẹhin pada ati awọn ipa ọna esi iṣẹlẹ ṣaaju iwọn.

Mura ipadasẹhin pada ati awọn ipa ọna esi iṣẹlẹ ṣaaju iwọn. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

Tesiwaju Ṣiṣawari