Imọ Itọsọna

Tensor Parallelism fun Awọn awoṣe nla

Ọna kan lati pin mathimatiki inu Layer-nẹtiwọọki nkankikan kan kọja ọpọlọpọ awọn GPUs nitorinaa awoṣe ti o tobi ju fun ẹrọ kan le tun ṣiṣẹ.

Akopọ

Ọna kan lati pin mathimatiki inu Layer-nẹtiwọọki nkankikan kan kọja ọpọlọpọ awọn GPUs nitorinaa awoṣe ti o tobi ju fun ẹrọ kan le tun ṣiṣẹ. O ṣe pataki nitori awọn awoṣe aala ni awọn ọgọọgọrun ọkẹ àìmọye ti awọn aye ti ko si GPU kan ti o le mu tabi ṣe iṣiro ni iyara to nikan.

Parallelism Tensor fun Awọn awoṣe Nla jẹ bulọọki ile imọ-ẹrọ ti o ni ipa lori didara awoṣe, idiyele amayederun, lairi, ati igbẹkẹle ni iwọn.

Jin Dive

Parallelism Tensor (ti a tun pe ni afiwe awoṣe inu-Layer) ṣapa awọn matiri iwuwo kọọkan kọja awọn GPU ju fifi gbogbo awọn fẹlẹfẹlẹ sori awọn ẹrọ lọtọ. Ninu oluyipada kan, awọn isodipupo matrix nla — awọn asọtẹlẹ akiyesi ati ifunni siwaju MLP — ti pin: fun apẹẹrẹ, matrix iwuwo akọkọ ti MLP ti pin nipasẹ awọn ọwọn ati ekeji nipasẹ awọn ori ila, nitorinaa GPU kọọkan ṣe iṣiro bibẹ kan ati idinku gbogbo-din daapọ awọn abajade. Ifarabalẹ pin si awọn ori, pẹlu GPU kọọkan ti n mu ipin kan. Nitoripe gbogbo GPU ṣe apakan ti gbogbo Layer ni nigbakannaa, tensor parallelism dinku fun-GPU iranti ati iyara soke iṣiro, sugbon o nbeere loorekoore, ga-bandwidth ibaraẹnisọrọ laarin GPUs kọọkan Layer. Ti o ni idi ti o maa n fi ara mọ laarin ipade kan ti a ti sopọ nipasẹ NVLink, ati ni idapo pelu opo gigun ti epo ati afiwera data fun ikẹkọ ti o tobi pupọ ati awọn iṣẹ ṣiṣe.

Imọ-imọ-ẹrọ

Ẹtan naa, olokiki nipasẹ Megatron-LM, n yan awọn iwọn ipin nitorina ibaraẹnisọrọ jẹ iwonba. Pipin iwe-iwe matrix MLP akọkọ-ọlọgbọn jẹ ki GPU kọọkan lo aiṣedeede ni agbegbe laisi amuṣiṣẹpọ; pipin ila-ọlọgbọn keji tumọ si pe awọn abajade kan nilo ọkan gbogbo-din si apao awọn abajade apa kan. Layer kọọkan ni bayi fa aijọju meji gbogbo-dinku (siwaju) ati meji (sẹhin). Nitoripe awọn akojọpọ wọnyi n ṣẹlẹ ni gbogbo ipele, lairi jẹ gaba lori — nitorinaa parallelism tensor n gbe lẹhin awọn ọna asopọ intra-node yara bi NVLink kuku ju awọn nẹtiwọọki inter-node lọra.

Iṣatunṣe Tensor Mastering fun Awọn awoṣe Nla

Ọna kan lati pin mathimatiki inu Layer-nẹtiwọọki nkankikan kan kọja ọpọlọpọ awọn GPUs nitorinaa awoṣe ti o tobi ju fun ẹrọ kan le tun ṣiṣẹ. O ṣe pataki nitori awọn awoṣe aala ni awọn ọgọọgọrun ọkẹ àìmọye ti awọn aye ti ko si GPU kan ti o le mu tabi ṣe iṣiro ni iyara to nikan. Parallelism Tensor fun Awọn awoṣe Nla jẹ bulọọki ile imọ-ẹrọ ti o ni ipa lori didara awoṣe, idiyele amayederun, lairi, ati igbẹkẹle ni iwọn. Lati kọ oye ti o jinlẹ, ṣe itọju Parallelism Tensor fun Awọn awoṣe nla bi awoṣe iṣẹ, kii ṣe ẹya kan: ṣalaye awọn abajade ti o fẹ, ṣalaye awọn arosọ, ati ya sọtọ ohun ti eto le ṣe ni igbẹkẹle lati ohun ti o tun nilo idajọ amoye.

Ni iṣe, awọn ẹgbẹ ti o lagbara ti o nlo Tensor Parallelism fun Awọn awoṣe nla ṣe iṣapeye faaji, data, ati awọn yiyan amayederun lodi si igbẹkẹle ati idiyele. Wọn ṣe akọsilẹ awọn ibeere aṣeyọri ti o fojuhan, idanwo lodi si data ojulowo ati ṣiṣan iṣẹ, ati atunbere ti o da lori awọn ilana ikuna ti a ṣakiyesi dipo awọn bori ala-akoko kan. Eyi ni ibiti oye imọ-jinlẹ yipada si agbara ti o tọ kọja ọja, eto imulo, ati awọn iṣẹ ṣiṣe.

Awọn ipinnu faaji ṣe awakọ iṣẹ ati idiyele iṣẹ fun awọn ọdun. Ni akoko kanna, Imudara iwọn ala kan le tọju awọn ailagbara eto to gbooro. Ọna resilient julọ julọ ni lati darapọ iyara idanwo pẹlu ibawi ijọba: ṣiṣe awọn awakọ awakọ, mu ẹri mu, ṣe atẹjade awọn iwe ipinnu, ati imudojuiwọn awọn aabo nigbagbogbo bi ihuwasi awoṣe, awọn ireti olumulo, ati awọn ibeere ilana ti dagbasoke.

Ipa Ilana

Awọn ipinnu faaji ṣe awakọ iṣẹ ati idiyele iṣẹ fun awọn ọdun.

Awọn ipinnu faaji ṣe awakọ iṣẹ ati idiyele iṣẹ fun awọn ọdun. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.

Ẹkọ imọ-ẹrọ ṣe iranlọwọ fun awọn ẹgbẹ lati yan akopọ to tọ, kii ṣe ọkan tuntun nikan.

Ẹkọ imọ-ẹrọ ṣe iranlọwọ fun awọn ẹgbẹ lati yan akopọ to tọ, kii ṣe ọkan tuntun nikan. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.

Awọn yiyan imọ-ẹrọ to dara julọ dinku awọn iṣẹlẹ igbẹkẹle ni iṣelọpọ.

Awọn yiyan imọ-ẹrọ to dara julọ dinku awọn iṣẹlẹ igbẹkẹle ni iṣelọpọ. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.

Ojo iwaju ti Tensor Parallelism fun Awọn awoṣe nla

Parallelism Tensor si maa wa ni ipilẹ ṣugbọn o pọ si ni idapọ si 'parallelism 3D' (tensor + pipeline + data) ati ni idapo pẹlu afiwera alamọja fun awọn awoṣe Adapọ-ti-Amoye. Awọn ilana bii Megatron-LM, DeepSpeed, ati vLLM ṣe adaṣe adaṣe. Bi GPU interconnects (NVLink, NVSwitch) ati opitika aso gba yiyara, awọn ipade-aala iye sinmi , gbigba anfani tensor-parallel awọn ẹgbẹ. Reti isọdọkan adaṣe ijafafa ti o mu awọn iwọn shard ati awọn iwọn ẹgbẹ lati dinku ibaraẹnisọrọ fun topology iṣupọ ti a fun.

Real-World imuse

Ikẹkọ awoṣe paramita 175B nipa sisọ awọn matiri iwuwo Layer kọọkan kọja 8 GPUs ninu ipade asopọ NVLink kan nipa lilo Megatron-LM.

Nsin awoṣe iwiregbe paramita 70B ni vLLM pẹlu tensor_parallel_size = 4 nitorinaa awọn iwuwo ṣe deede kọja awọn GPU mẹrin ati dahun ni akoko gidi.

Pipin akiyesi transformer ori kọja awọn GPUs ki ẹrọ kọọkan ṣe iṣiro ipin kan, lẹhinna awọn abajade isọpọ fun Layer atẹle.

Apapọ parallelism tensor laarin awọn apa ati pipeline parallelism kọja awọn apa lati kọ awọn awoṣe paramita trillion lori awọn iṣupọ GPU nla.

Awọn Ilana imuse

Tensor Parallelism fun Awọn awoṣe nla ni iṣe

Ikẹkọ awoṣe paramita 175B nipa sisọ awọn matiri iwuwo Layer kọọkan kọja 8 GPUs ninu ipade asopọ NVLink kan nipa lilo Megatron-LM.

Ikẹkọ awoṣe paramita 175B nipa sisọ awọn matiri iwuwo Layer kọọkan kọja awọn 8 GPUs ninu ipade asopọ NVLink kan nipa lilo Awọn ẹgbẹ Megatron-LM nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe ni akoko pupọ.

Tensor Parallelism fun Awọn awoṣe nla ni iṣe

Nsin awoṣe iwiregbe paramita 70B ni vLLM pẹlu tensor_parallel_size = 4 nitorinaa awọn iwuwo ṣe deede kọja awọn GPU mẹrin ati dahun ni akoko gidi.

Sisin awoṣe iwiregbe 70B-parameter ni vLLM pẹlu tensor_parallel_size = 4 nitorinaa awọn iwuwo ni ibamu si awọn GPU mẹrin ati dahun ni akoko gidi Awọn ẹgbẹ maa n gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.

Tensor Parallelism fun Awọn awoṣe nla ni iṣe

Pipin akiyesi transformer ori kọja awọn GPUs ki ẹrọ kọọkan ṣe iṣiro ipin kan, lẹhinna awọn abajade isọpọ fun Layer atẹle.

Pipin akiyesi awọn oluyipada iyipada kọja awọn GPUs nitorinaa ẹrọ kọọkan ṣe iṣiro ipin kan, lẹhinna awọn abajade isọdọkan fun awọn ẹgbẹ Layer ti o tẹle nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe lori akoko.

Tensor Parallelism fun Awọn awoṣe nla ni iṣe

Apapọ parallelism tensor laarin awọn apa ati pipeline parallelism kọja awọn apa lati kọ awọn awoṣe paramita trillion lori awọn iṣupọ GPU nla.

Apapọ parallelism tensor laarin awọn apa ati pipeline parallelism kọja awọn apa lati ṣe ikẹkọ awọn awoṣe paramita aimọye lori awọn iṣupọ GPU nla Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe lori akoko.

Awọn ewu & Awọn ọna iṣọ

!

Ṣiṣepe ala-ilẹ kan le tọju awọn ailagbara eto ti o gbooro.

!

Awọn ohun elo amayederun ati awọn idiyele itọju nigbagbogbo ni aibikita.

!

Aabo ati awọn ela akiyesi le dagba bi awọn eto ṣe di eka sii.

Ilana Ilana imuse

1

Ṣetumo lairi, didara, ati awọn ibi-afẹde idiyele ṣaaju imuse.

Ṣetumo lairi, didara, ati awọn ibi-afẹde idiyele ṣaaju imuse. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

2

Aṣepari labẹ ẹru ojulowo ati awọn ipo data.

Aṣepari labẹ ẹru ojulowo ati awọn ipo data. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

3

Abojuto ohun elo fun awọn aṣiṣe, fiseete, ati ipa olumulo.

Abojuto ohun elo fun awọn aṣiṣe, fiseete, ati ipa olumulo. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

4

Mura ipadasẹhin pada ati awọn ipa ọna esi iṣẹlẹ ṣaaju iwọn.

Mura ipadasẹhin pada ati awọn ipa ọna esi iṣẹlẹ ṣaaju iwọn. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

Tesiwaju Ṣiṣawari