Jagorar Fasaha

Model da Bututu Daidaita

Lokacin da samfurin ya yi girma da yawa don dacewa da GPU ɗaya, ƙira da daidaiton bututun mai suna raba samfurin kanta a cikin na'urori.

Dubawa

Lokacin da samfurin ya yi girma da yawa don dacewa da GPU ɗaya, ƙira da daidaiton bututun mai suna raba samfurin kanta a cikin na'urori. Wannan shi ne abin da ke sa horar da manyan harsunan ƙirar harshe tare da ɗaruruwan biliyoyin ma'auni mai yiwuwa a zahiri.

Model da Bututu Daidaituwa wani shingen gini ne na fasaha wanda ke shafar ingancin samfuri, farashin kayayyakin more rayuwa, latency, da aminci a sikeli.

Zurfafa nutsewa

Misalin daidaitaccen tsari yana raba samfuri guda ɗaya a cikin GPUs da yawa don haka babu wata na'ura da ke buƙatar ɗaukar duk ma'aunin nauyi. Akwai manyan abubuwan dandano guda biyu. Tensor (intra-Layer) daidaici yana raba lissafi a cikin Layer, kamar sare babban adadin matrix a cikin GPUs wanda kowane ya ƙididdige ɓangaren fitarwa. Daidaitaccen bututu (inter-Layer) yana ba da nau'i daban-daban a jere zuwa GPUs daban-daban, don haka Layer toshe 1 yana rayuwa akan GPU 0, toshe 2 akan GPU 1, da sauransu, tare da kunnawa gaba kamar layin taro. Kalubalen tare da bututun butulci shine 'kumfa': yayin da GPU 0 ke aiki akan rukunin farko, GPUs na ƙasa suna zama marasa aiki. Bututun bututu yana raba kowane tsari zuwa ƙananan batches don haka dukkan matakai su kasance cikin shagaltuwa, suna haɓaka amfani sosai.

Fahimtar Fasaha

Daidaitawar Tensor (kamar yadda yake a cikin NVIDIA Megatron-LM) yana raba ginshiƙan matrices masu nauyi- ko jere-hikima kuma yana amfani da duk-rage don sake haɗa sakamako na ɓangarori, kiyaye sadarwa a cikin kumburin NVLink mai sauri. Daidaituwar bututun mai (GPipe, PipeDream) yana rarraba tsari zuwa ƙananan batches waɗanda ke gudana ta matakai a cikin jadawali, suna raguwar lokacin 'kumfa' mara amfani. Sau da yawa ana jera su biyun tare, tare da daidaitawar tensor a cikin kulli da daidaiton bututun a fadin nodes.

Samfuran Jagora da Daidaita Bututu

Lokacin da samfurin ya yi girma da yawa don dacewa da GPU ɗaya, ƙira da daidaiton bututun mai suna raba samfurin kanta a cikin na'urori. Wannan shi ne abin da ke sa horar da manyan harsunan ƙirar harshe tare da ɗaruruwan biliyoyin ma'auni mai yiwuwa a zahiri. Model da Bututu Daidaituwa wani shingen gini ne na fasaha wanda ke shafar ingancin samfuri, farashin kayayyakin more rayuwa, latency, da aminci a sikeli. Don gina zurfin fahimta, bi da Model da Pipeline Parallelism a matsayin samfurin aiki, ba fasali ɗaya ba: ayyana sakamakon da ake so, bayyana zato, da raba abin da tsarin zai iya yi da dogaro daga abin da har yanzu yana buƙatar yanke hukunci na ƙwararru.

A aikace, ƙungiyoyi masu ƙarfi da ke amfani da Model da Daidaitaccen Bututun bututu suna haɓaka gine-gine, bayanai, da zaɓin abubuwan more rayuwa a kan dogaro da farashi. Suna rubuta ƙayyadaddun ƙa'idodin nasara, gwaji akan bayanan gaskiya da gudanawar aiki, da jujjuyawar bisa ga tsarin gazawar da aka lura maimakon cin nasara na lokaci ɗaya. Wannan shine inda fahimtar ka'idar ta juya zuwa iyawa mai dorewa a cikin samfura, manufofi, da ayyuka.

Hukunce-hukuncen gine-gine suna haifar da aiki da tsadar aiki na shekaru. A lokaci guda, Haɓaka ma'auni ɗaya na iya ɓoye manyan raunin tsarin. Hanyar da ta fi dacewa ita ce haɗa saurin gwaji tare da horon gudanarwa: gudanar da matukin jirgi, kama shaida, buga rajistan ayyukan yanke shawara, da ci gaba da sabunta abubuwan tsaro kamar yadda halayen ƙira, tsammanin mai amfani, da buƙatun tsari ke tasowa.

Dabarun Tasiri

Hukunce-hukuncen gine-gine suna haifar da aiki da tsadar aiki na shekaru.

Hukunce-hukuncen gine-gine suna haifar da aiki da tsadar aiki na shekaru. A cikin ƙawance masu inganci, ana fassara wannan zuwa ƙa'idodin aiki waɗanda za a iya aunawa, iyakokin ikon mallaka, da kuma bita-da-kullin bita don ƙungiyoyi su iya haɓaka kwarin gwiwa a maimakon ɓata shakku.

Ilimin fasaha yana taimaka wa ƙungiyoyi su zaɓi tari mai kyau, ba kawai sabon abu ba.

Ilimin fasaha yana taimaka wa ƙungiyoyi su zaɓi tari mai kyau, ba kawai sabon abu ba. A cikin ƙawance masu inganci, ana fassara wannan zuwa ƙa'idodin aiki waɗanda za a iya aunawa, iyakokin ikon mallaka, da kuma bita-da-kullin bita don ƙungiyoyi su iya haɓaka kwarin gwiwa a maimakon ɓata shakku.

Zaɓuɓɓukan injiniya mafi kyau suna rage abin dogaro a cikin samarwa.

Zaɓuɓɓukan injiniya mafi kyau suna rage abin dogaro a cikin samarwa. A cikin ƙawance masu inganci, ana fassara wannan zuwa ƙa'idodin aiki waɗanda za a iya aunawa, iyakokin ikon mallaka, da kuma bita-da-kullin bita don ƙungiyoyi su iya haɓaka kwarin gwiwa a maimakon ɓata shakku.

Makomar Model da Daidaituwar Bututu

Tsarin aiki yana ƙara sarrafa matsala mai wuyar yanke shawarar yadda za a raba samfuri a cikin na'urori, ta amfani da bayanin martaba da bincike don daidaita lissafi da sadarwa. Yi tsammanin haɗin kai mai ƙarfi na tensor, bututun, da daidaiton bayanai (daidaitawar 3D), tsara tsarin ƙaramin tsari don kusan kawar da bututun bututun, da kayan masarufi tare da haɗin kai cikin sauri don haka rarraba Layer guda ɗaya a kan kwakwalwan kwamfuta ya zama mai rahusa kuma ƙari na yau da kullun don ƙira mafi girma.

Aiwatar da Gaskiyar Duniya

Horar da nau'ikan salon GPT tare da NVIDIA Megatron-LM, wanda ke raba hankalin kowane Layer na taswira da matrix na ciyar da gaba a cikin GPUs ta hanyar daidaitawa ta tensor.

Yin amfani da GPipe don sanya sassa daban-daban na babban hangen nesa ko ƙirar harshe a kan keɓantattun masu haɓaka yayin da ƙananan batching ke sa su shagaltuwa.

Injin bututun DeepSpeed ​​yana raba samfurin siga-biliyan ɗari zuwa matakai a cikin ƙofofin da yawa.

Haɗa daidaiton tensor a cikin sabar 8-GPU guda ɗaya tare da daidaiton bututun mai da ke faɗin sabar da yawa don horar da ƙira mai girma da yawa ga na'ura ɗaya.

Hanyoyin Aiwatarwa

Model da Bututu Daidaita a aikace

Horar da nau'ikan salon GPT tare da NVIDIA Megatron-LM, wanda ke raba hankalin kowane Layer na taswira da matrix na ciyar da gaba a cikin GPUs ta hanyar daidaitawa ta tensor.

Horar da nau'ikan salon GPT tare da NVIDIA Megatron-LM, wanda ke raba hankalin kowane Layer na mai canzawa da matrix na ciyar da gaba a cikin GPUs ta hanyar ƙungiyoyin daidaitawa yawanci suna samun sakamako mafi kyau lokacin da suka ayyana ma'auni masu inganci a gaba, kiyaye hanyar haɓaka ɗan adam don ƙararraki, da bin diddigin nasarorin samarwa da ƙimar kuskure akan lokaci.

Model da Bututu Daidaita a aikace

Yin amfani da GPipe don sanya sassa daban-daban na babban hangen nesa ko ƙirar harshe a kan keɓantattun masu haɓaka yayin da ƙananan batching ke sa su shagaltuwa.

Yin amfani da GPipe don sanya nau'i daban-daban na babban hangen nesa ko ƙirar harshe akan masu haɓaka daban-daban yayin da ƙaramin batching ke sa su shagaltuwa Ƙungiyoyi yawanci suna samun sakamako mafi kyau lokacin da suka ayyana ma'auni masu inganci a gaba, kiyaye hanyar haɓakar ɗan adam don shari'o'in gefe, da kuma bin diddigin abubuwan da ake samu da kuma tsadar kuɗi a kan lokaci.

Model da Bututu Daidaita a aikace

Injin bututun DeepSpeed ​​yana raba samfurin siga-biliyan ɗari zuwa matakai a cikin ƙofofin da yawa.

Injin bututun DeepSpeed ​​​​yana raba samfurin siga-biliyan ɗari zuwa matakai a kan nodes da yawa Ƙungiyoyi yawanci suna samun ingantacciyar sakamako lokacin da suka ayyana ma'auni masu inganci a gaba, kiyaye hanyar haɓakar ɗan adam don shari'o'i, da bin diddigin nasarorin samarwa da farashi na kuskure akan lokaci.

Model da Bututu Daidaita a aikace

Haɗa daidaiton tensor a cikin sabar 8-GPU guda ɗaya tare da daidaiton bututun mai da ke faɗin sabar da yawa don horar da ƙira mai girma da yawa ga na'ura ɗaya.

Haɗa daidaiton tensor a cikin sabar 8-GPU guda ɗaya tare da daidaiton bututun da ke tattare da sabar sabar da yawa don horar da ƙirar da ta fi girma ga na'ura Ƙungiyoyi yawanci suna samun sakamako mafi kyau lokacin da suka ayyana ma'auni masu inganci a gaba, kiyaye hanyar haɓakar ɗan adam don ƙararraki, da bin diddigin abubuwan samarwa da ƙimar kuskure akan lokaci.

Hatsari & Tsare-tsare

!

Haɓaka ma'auni ɗaya na iya ɓoye manyan raunin tsarin.

!

Sau da yawa ana raina kayan more rayuwa da kuma kuɗin kulawa.

!

Tsaro da gibin lura na iya girma yayin da tsarin ke ƙara haɓaka.

Taswirar Hanya

1

Ƙayyade latency, inganci, da maƙasudin farashi kafin aiwatarwa.

Ƙayyade latency, inganci, da maƙasudin farashi kafin aiwatarwa. Ɗauki kowane mataki azaman ƙofar shaida: idan ba a cika sharuɗɗa ba, dakatar da fitar, rufe tazarar, sannan kawai faɗaɗa amfani.

2

Alamar ma'auni a ƙarƙashin ainihin kaya da yanayin bayanai.

Alamar ma'auni a ƙarƙashin ainihin kaya da yanayin bayanai. Ɗauki kowane mataki azaman ƙofar shaida: idan ba a cika sharuɗɗa ba, dakatar da fitar, rufe tazarar, sannan kawai faɗaɗa amfani.

3

Kula da kayan aiki don kurakurai, ɗigo, da tasirin mai amfani.

Kula da kayan aiki don kurakurai, ɗigo, da tasirin mai amfani. Ɗauki kowane mataki azaman ƙofar shaida: idan ba a cika sharuɗɗa ba, dakatar da fitar, rufe tazarar, sannan kawai faɗaɗa amfani.

4

Shirya bijirowa da hanyoyin mayar da martani kafin sikeli.

Shirya bijirowa da hanyoyin mayar da martani kafin sikeli. Ɗauki kowane mataki azaman ƙofar shaida: idan ba a cika sharuɗɗa ba, dakatar da fitar, rufe tazarar, sannan kawai faɗaɗa amfani.

Ci gaba da Bincike