Akopọ
Parallel Data Sharded ni kikun (FSDP) jẹ ilana ikẹkọ pinpin ti o pin awọn ayewọn awoṣe, awọn gradients, ati awọn ipinlẹ iṣapeye kọja ọpọlọpọ awọn GPUs nitorinaa ẹrọ kọọkan mu bibẹ pẹlẹbẹ kan nikan. O jẹ ki ikẹkọ awọn awoṣe nla ṣee ṣe lori ohun elo ti ko le baamu gbogbo awoṣe rara ni iranti GPU kan.
Iparapọ Data Sharded ni kikun jẹ bulọọki ile imọ-ẹrọ ti o ni ipa lori didara awoṣe, idiyele amayederun, lairi, ati igbẹkẹle ni iwọn.
Jin Dive
Ibaṣepọ data ti aṣa ntọju ẹda kikun ti awoṣe lori gbogbo GPU, eyiti o padanu iranti ati iwọn awoṣe awọn fila. FSDP, gbajugbaja nipasẹ Meta's PyTorch ati atilẹyin nipasẹ Microsoft's ZeRO, dipo awọn nkan mẹta kọja awọn ẹrọ: paramita, gradients, ati awọn ipinlẹ imudara. Lakoko irekọja siwaju, GPU kọọkan n ṣajọ awọn iwọn ni kikun fun ipele ti o n ṣe iṣiro nipasẹ apejọ gbogbo, ṣiṣe iṣiro naa, lẹhinna lẹsẹkẹsẹ da ẹda ti o pejọ silẹ. Ikọja sẹhin n ṣiṣẹ bakanna, atẹle nipasẹ idinku-tuka ti o pin kaakiri awọn ege gradient pada si awọn GPU ti wọn ni. Nitori ẹrọ kọọkan nikan ni o tọju ida kan ti awoṣe patapata, lilo iranti ṣubu ni aijọju laini pẹlu nọmba awọn GPU, jẹ ki awọn ẹgbẹ ṣe ikẹkọ awọn awoṣe pẹlu awọn mewa tabi awọn ọgọọgọrun ọkẹ àìmọye awọn aye.
Imọ-imọ-ẹrọ
FSDP ṣe iṣowo ibaraẹnisọrọ ni afikun fun awọn ifowopamọ iranti. Awọn iwuwo Layer kọọkan ni a tun ṣe lori ibeere pẹlu gbogbo-kojọpọ ṣaaju lilo ati asonu lẹsẹkẹsẹ lẹhin, lakoko ti awọn gradients ti wa ni idapo ati pin pẹlu idinku-tuka. Ibaraẹnisọrọ le ti wa ni overlapped pẹlu isiro nipa prefetching nigbamii ti Layer ká sile nigba ti isiyi Layer nṣiṣẹ, nọmbafoonu Elo ti awọn lairi nẹtiwọki. Yiyi granularity sharding (eto imulo ipari) ṣe iwọntunwọnsi ifẹsẹtẹ iranti lodi si oke ibaraẹnisọrọ.
Mastering ni kikun Sharded Data Parallel
Parallel Data Sharded ni kikun (FSDP) jẹ ilana ikẹkọ pinpin ti o pin awọn ayewọn awoṣe, awọn gradients, ati awọn ipinlẹ iṣapeye kọja ọpọlọpọ awọn GPUs nitorinaa ẹrọ kọọkan mu bibẹ pẹlẹbẹ kan nikan. O jẹ ki ikẹkọ awọn awoṣe nla ṣee ṣe lori ohun elo ti ko le baamu gbogbo awoṣe rara ni iranti GPU kan. Iparapọ Data Sharded ni kikun jẹ bulọọki ile imọ-ẹrọ ti o ni ipa lori didara awoṣe, idiyele amayederun, lairi, ati igbẹkẹle ni iwọn. Lati kọ oye ti o jinlẹ, tọju Ibaṣepọ Data Sharded ni kikun bi awoṣe iṣẹ, kii ṣe ẹya ẹyọkan: ṣalaye awọn abajade ti o fẹ, ṣe alaye awọn arosọ, ati lọtọ ohun ti eto le ṣe ni igbẹkẹle lati ohun ti o tun nilo idajọ amoye.
Ni iṣe, awọn ẹgbẹ ti o lagbara ti o nlo Ibaṣepọ Data Sharded ni kikun ṣe iṣapeye faaji, data, ati awọn yiyan amayederun lodi si igbẹkẹle ati idiyele. Wọn ṣe akọsilẹ awọn ibeere aṣeyọri ti o fojuhan, idanwo lodi si data ojulowo ati ṣiṣan iṣẹ, ati atunbere ti o da lori awọn ilana ikuna ti a ṣakiyesi dipo awọn bori ala-akoko kan. Eyi ni ibiti oye imọ-jinlẹ yipada si agbara ti o tọ kọja ọja, eto imulo, ati awọn iṣẹ ṣiṣe.
Awọn ipinnu faaji ṣe awakọ iṣẹ ati idiyele iṣẹ fun awọn ọdun. Ni akoko kanna, Imudara iwọn ala kan le tọju awọn ailagbara eto to gbooro. Ọna resilient julọ julọ ni lati darapọ iyara idanwo pẹlu ibawi ijọba: ṣiṣe awọn awakọ awakọ, mu ẹri mu, ṣe atẹjade awọn iwe ipinnu, ati imudojuiwọn awọn aabo nigbagbogbo bi ihuwasi awoṣe, awọn ireti olumulo, ati awọn ibeere ilana ti dagbasoke.
Ipa Ilana
Awọn ipinnu faaji ṣe awakọ iṣẹ ati idiyele iṣẹ fun awọn ọdun.
Awọn ipinnu faaji ṣe awakọ iṣẹ ati idiyele iṣẹ fun awọn ọdun. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Ẹkọ imọ-ẹrọ ṣe iranlọwọ fun awọn ẹgbẹ lati yan akopọ to tọ, kii ṣe ọkan tuntun nikan.
Ẹkọ imọ-ẹrọ ṣe iranlọwọ fun awọn ẹgbẹ lati yan akopọ to tọ, kii ṣe ọkan tuntun nikan. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Awọn yiyan imọ-ẹrọ to dara julọ dinku awọn iṣẹlẹ igbẹkẹle ni iṣelọpọ.
Awọn yiyan imọ-ẹrọ to dara julọ dinku awọn iṣẹlẹ igbẹkẹle ni iṣelọpọ. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Real-World imuse
Ṣiṣatunṣe didara awoṣe Llama 70-bilionu-paramita kọja awọn GPUs 8 ti ọkọọkan ko le di awọn iwuwo ni kikun mu.
Ṣiṣe ikẹkọ awọn awoṣe ede nla ni awọn ile-iṣọ AI nipasẹ pinpin awọn ipinlẹ iṣapeye (eyiti o jẹ gaba lori iranti pẹlu Adam) kọja awọn ọgọọgọrun ti awọn iyara.
Awọn oniwadi lilo PyTorch's FSDP wrapper lati ṣe ikẹkọ awọn oluyipada iran lori iṣupọ ile-ẹkọ giga kan laisi rira awọn flagship 80GB GPUs.
Apapọ FSDP pẹlu adalu-konge bfloat16 si aijọju idaji iranti ati titẹ soke ikẹkọ lori awọn awoṣe multimodal.
Awọn Ilana imuse
Ni kikun Sharded Data Parallel ni asa
Ṣiṣatunṣe didara awoṣe Llama 70-bilionu-paramita kọja awọn GPUs 8 ti ọkọọkan ko le di awọn iwuwo ni kikun mu.
Ṣiṣatunṣe didara awoṣe Llama 70-bilionu-miliọnu kan kọja awọn GPUs 8 ti ọkọọkan ko le mu awọn iwuwo ni kikun Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.
Ni kikun Sharded Data Parallel ni asa
Ṣiṣe ikẹkọ awọn awoṣe ede nla ni awọn ile-iṣọ AI nipasẹ pinpin awọn ipinlẹ iṣapeye (eyiti o jẹ gaba lori iranti pẹlu Adam) kọja awọn ọgọọgọrun ti awọn iyara.
Ṣiṣe ikẹkọ awọn awoṣe ede nla ni awọn ile-iṣẹ AI nipasẹ awọn ipinlẹ iṣapeye sharding (eyiti o jẹ gaba lori iranti pẹlu Adam) kọja awọn ọgọọgọrun ti awọn accelerators Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe lori akoko.
Ni kikun Sharded Data Parallel ni asa
Awọn oniwadi lilo PyTorch's FSDP wrapper lati ṣe ikẹkọ awọn oluyipada iran lori iṣupọ ile-ẹkọ giga kan laisi rira awọn flagship 80GB GPUs.
Awọn oniwadi ti nlo PyTorch's FSDP wrapper lati ṣe ikẹkọ awọn oluyipada iran lori iṣupọ ile-ẹkọ giga laisi rira flagship 80GB Awọn ẹgbẹ GPUs nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe ni akoko pupọ.
Ni kikun Sharded Data Parallel ni asa
Apapọ FSDP pẹlu adalu-konge bfloat16 si aijọju idaji iranti ati titẹ soke ikẹkọ lori awọn awoṣe multimodal.
Apapọ FSDP pẹlu adalu-konge bfloat16 lati ni aijọju idaji iranti ati iyara gbigbejade ikẹkọ lori awọn awoṣe multimodal Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe lori akoko.
Awọn ewu & Awọn ọna iṣọ
Ṣiṣepe ala-ilẹ kan le tọju awọn ailagbara eto ti o gbooro.
Awọn ohun elo amayederun ati awọn idiyele itọju nigbagbogbo ni aibikita.
Aabo ati awọn ela akiyesi le dagba bi awọn eto ṣe di eka sii.
Ilana Ilana imuse
Ṣetumo lairi, didara, ati awọn ibi-afẹde idiyele ṣaaju imuse.
Ṣetumo lairi, didara, ati awọn ibi-afẹde idiyele ṣaaju imuse. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Aṣepari labẹ ẹru ojulowo ati awọn ipo data.
Aṣepari labẹ ẹru ojulowo ati awọn ipo data. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Abojuto ohun elo fun awọn aṣiṣe, fiseete, ati ipa olumulo.
Abojuto ohun elo fun awọn aṣiṣe, fiseete, ati ipa olumulo. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Mura ipadasẹhin pada ati awọn ipa ọna esi iṣẹlẹ ṣaaju iwọn.
Mura ipadasẹhin pada ati awọn ipa ọna esi iṣẹlẹ ṣaaju iwọn. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.