Résumé
Yooni eskalaasioŋ formul empirik lañu yuy wane ni ñàkka am reso neuronal dafay wàññeeku bu baax suñu màggee dayo model bi, dayo done yi ak xayma yi. Dañu am solo ndax dañu may gëstukat yi ñu seetlu li ñuy def balaa ñuy dugal ay milioŋ ci tàggat model bu mag.
Yoon yiy yamale Reseau Neural yi ñu ngi toog ci jumtukaayu IA bi. Soo ko xamee, yeneen mbir ci IA dañuy gëna yomba jàngat ak méngale.
Plongeur bu xóot
Yooni scaling, siiwal ci OpenAI's këyitu 2020 bi Kaplan ak ay naataango bind, dafa wane ni test perte dafay wàññeeku ni yoon bu yomb ci ñatti anam: lim parametre (N), jetons tàggat (D), ak lim total (C). Buñu ko rësee ci axes log-log, perte ak facteur bu nekk dafay forme ligne bu jub buy jaar ci rang magnitude yu bari. Relasioŋ yi dañu am formu Perte ≈ a + b·X^(-c), fu X nekk facteur de échelle. Li gëna am solo mooy liggéey bu njëkk bi dafa wane ni dayo model bi moo gëna am solo ci done yi, loolu moo waral ñuy wut model yu gëna mag yu melni 175 milyaari parametre yu GPT-3. Yooni scaling yi dañu soppi jàng bu xóot bi juge ci guesswork mu nekk disipline ingénieur buñ mëna seentu, may ekip yi ñu mëna seentu resultaa yu yaatu yi ci ay experience yu ndaw te yomb.
Gis-gis xarala
Formu yoon bu am doole bi dafay tekki ni yokkute bu nekk ci xayma bi dafay jur daanu buy yokk ci perte bi. Ñu ngi koy natt ci nats wala bit ci token bu nekk ci entropie croix. Ndax exponent c dafa tuuti (dafay faral di tollu ci 0.05-0.1), benefiis yi dañu am waaye dañuy wàññeeku: ñaari yoon xayma dafay gëna néew lu muy jàppale ñaari yoon yu njëkk yi. Li am solo mooy yoon yii dañuy fësal ñàkka mëna wàññeeku-plus-mën wàññeeku, fu ab term budul soppeeku di jàpp entropi intrinsèque bu done yi te benn model mënu ko raw.
Xam yooni scaling ngir reso neuronal
Yooni eskalaasioŋ formul empirik lañu yuy wane ni ñàkka am reso neuronal dafay wàññeeku bu baax suñu màggee dayo model bi, dayo done yi ak xayma yi. Dañu am solo ndax dañu may gëstukat yi ñu seetlu li ñuy def balaa ñuy dugal ay milioŋ ci tàggat model bu mag. Yoon yiy yamale Reseau Neural yi ñu ngi toog ci jumtukaayu IA bi. Soo ko xamee, yeneen mbir ci IA dañuy gëna yomba jàngat ak méngale. Ngir tabax xam-xam bu xóot, jàppal Scaling Laws for Neural Networks ni xeetu liggéey, du benn man-man: leeral njariñ yi nga bëgg, leeral xalaat yi, ak tàqale li sistem bi mëna def ci anam wu wóor ak li ba leegi soxla àtteb kàngam.
Ci jëf, ekip yu am doole yiy jëfandikoo Scaling Laws ngir Reseau Neural yi dañuy njëkka tabax ay model konseptuwaal yu dëgër, ba noppi ñu méngale model yooyu ak ay jafe-jafe liggéey dëgg. Dañuy bind kritër yu leer ngir am ndam, natt leen ci done yu dëggu ak def liggéey, ba noppi ñu baamtu ci anamu ñàkka mëna seetlu, du ci benn yoon benchmark wins. Mooy barab bi xam-xam theorie bi di soppiku nekk kàttan buy yàgg ci produit yi, ci politik yi ak ci liggéey yi.
Daf lay jàppale nga tàqale kàddu yu leer ci wàllu xarala ak làkku fësal njaay. Ci jamano jooju, ekip yu wuute mën nañu jëfandikoo benn baat ci anam wu wuute, kon teela leeral yaatuwaayam. Xeetu jëf bi gëna dëgër mooy boole gaawaayu jàngat ak disipline nguur: doxal pilote, jàpp firnde, siiwal dogal yi, ak wéy di yeesal kaaraange gi ci anam wi ñuy doxalee, li jëfandikukat bi di xaar, ak sàrti sàrt yi di jëm kanam.
njeextalu pexe
Daf lay jàppale nga tàqale kàddu yu leer ci wàllu xarala ak làkku fësal njaay.
Daf lay jàppale nga tàqale kàddu yu leer ci wàllu xarala ak làkku fësal njaay. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Mën nga laaj laaj yu gëna baax ci samp gi balaa ngay dugal xaalis wala sa jotu liggéey.
Mën nga laaj laaj yu gëna baax ci samp gi balaa ngay dugal xaalis wala sa jotu liggéey. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Ekip yi bokk xam-xam ñoo gëna mëna jël yenn dogal ci wàllu produit, politik ak jàng.
Ekip yi bokk xam-xam ñoo gëna mëna jël yenn dogal ci wàllu produit, politik ak jàng. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Doxal ci àdduna dëgg
Xayma luy waaja ñàkk ci modelu 70 milyaar ciy paramet ci ay test yu ndaw yu am 100 milioŋ ciy paramet balaa ñuy jël budget GPU.
Xalaatal ñaata trillion ci jetons yi nga wara dajale suko defee budget bu takku bi baña yàqu ci model buñu tàggatul.
Teg ñaari architecture ci anam wu yomb, boole seeni courbe scaling ci escale bu ndaw, moo gën ñu tàggat ñoom ñaar ci dayo bu mat sëkk.
Teg ay xaar-xaar yu dëggu ngir dugal xaalis wala xoolaatkat yi ci extrapoler courbe perte ci niveau calcul biñ bëgga am.
Modèlu jëfandikoo
Scaling Yoon ngir Reseau Neural ci jëf
Xayma luy waaja ñàkk ci modelu 70 milyaar ciy paramet ci ay test yu ndaw yu am 100 milioŋ ciy paramet balaa ñuy jël budget GPU.
Xalaatal ñàkkaale bu mujj bu benn xeetu 70-milyaar-parametre buñ waajal ci ay test yu ndaw yu 100-milioŋ-parametre laata ñuy def budget GPU. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ak topp gains yu njëkk yi.
Scaling Yoon ngir Reseau Neural ci jëf
Xalaatal ñaata trillion ci jetons yi nga wara dajale suko defee budget bu takku bi baña yàqu ci model buñu tàggatul.
Xalaatal ñaata trillion ci jetons yi nga wara dajale suko defee benn budget ordinatër fixe du yàqu ci benn model bu ñu tàggatul. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee ay threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.
Scaling Yoon ngir Reseau Neural ci jëf
Teg ñaari architecture ci anam wu yomb, boole seeni courbe scaling ci escale bu ndaw, moo gën ñu tàggat ñoom ñaar ci dayo bu mat sëkk.
Teg ñaari architecture yu yomb ci méngale seeni courbe scaling ci escale bu ndaw moo gën ñu tàggat ñoom ñaar ci dayo bu mat sëkk. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp ñaari produit yi ak njëgu njuumte yi ci diir bi.
Scaling Yoon ngir Reseau Neural ci jëf
Teg ay xaar-xaar yu dëggu ngir dugal xaalis wala xoolaatkat yi ci extrapoler courbe perte ci niveau calcul biñ bëgga am.
Teg ay xaar-xaar yu dëggu ngir dugal xaalis wala xoolaatkat yi ci extrapolating courbe perte ci niveau calcul biñu bëgg. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee thresholds yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit yi ak njëgu njuumte yi ci diir bi.
Risk yi ak balustrade yi
Ekip yu bari mën nañu jëfandikoo benn baat ci anam wu wuute, kon teela leeral yaatuwaayam.
Benchmark yi mën nañu nuru lu am doole waaye performance yi ci àdduna bi duñu tolloo.
Bëgg kalite done ak palaŋu jàngat dafay faral di jur njariñ yu yomba dagg.
Roadmap ngir samp gi
Tàmbaleel ci joxe leeral ci làkk wu leer ci njariñ li nga soxla.
Tàmbaleel ci joxe leeral ci làkk wu leer ci njariñ li nga soxla. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppalu génne gi, tëj bërëb bi, ba noppi yokk jëfandikoo gi.
Tannal benn metric bu baax ak benn anam bu baaxul balaa ngay saytu.
Tannal benn metric bu baax ak benn anam bu baaxul balaa ngay saytu. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppalu génne gi, tëj bërëb bi, ba noppi yokk jëfandikoo gi.
Doxal ab pilote bu ndaw ak ay done yu representatif, du ab demo bu leer.
Doxal ab pilote bu ndaw ak ay done yu representatif, du ab demo bu leer. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppalu génne gi, tëj bërëb bi, ba noppi yokk jëfandikoo gi.
Dokument fu Scaling Laws ngir Reseau Neural di jàppale ak fu pexe yu gëna yomba gëna baax.
Dokument fu Scaling Laws ngir Reseau Neural di jàppale ak fu pexe yu gëna yomba gëna baax. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppalu génne gi, tëj bërëb bi, ba noppi yokk jëfandikoo gi.