Résumé
Yoon scaling Chinchilla, yu bawoo ci DeepMind ci 2022, dafa wane ni modelu làkk yu mag yi bari wuñu woon luñu tàggat bu baax: ngir am budget ordinatër bu takku, danga wara scaleer dayo model bi ak done yiñ tàggat ci anam wu tolloo. Dafa am solo ndax dafa joxe leeral yu bees ci li 'optimal' model size tekki ba noppi soppi anam wi lab yi di jëfandikoo ordinatër.
Chinchilla Scaling Laws bokk na ci lakk-IA stack bi ñuy jëfandikoo ngir jàng, defar, xaaj, ak soppi mbind ak wax ci eskaal.
Plongeur bu xóot
Laata Chinchilla, tendaas bi mooy tabax model yu gëna rëy (lu melni 175B-parametre GPT-3) ci di tàggat ci ay done yu néew. DeepMind tàggat na lu ëpp 400 xeetu ci dayo yu bari ak budget done, ba noppi ñu méngale ay courbe yuy wax luy ñàkk ci fonction parametre ak jeton ci suufu budget fixe (FLOP). Seenug gis-gis: parametre yi ak token tàggat yi dañu wara bokk scale, lu tollu ci 1-ci-1 ratio, loolu dafay tekki lu tollu ci 20 token ci done tàggat ci parametre bu nekk. Ngir firnde ko, ñu tàggat Chinchilla, xeetu 70B-paramet ci 1.4 trillion jetons, mu raw Gopher bu gëna mag 280B-paramet doonte dafa jëfandikoo benn ordinatër, ndax dañu ko tàggat ci done yu bari.
Gis-gis xarala
Yoon yi dañu bawoo ci méngale ab fonction perte parametrik L(N, D) fu N nekk ay parametre ak D ay jeton, boole ci perte buñu mënul wàññi, dayo model, ak terme dayo done. Wàññi perte bi aju ci benn tënk ci xayma (jëfandikoo lu tollu ci N yoon D) dafay jur njariñu N ak D yi gëna baax ñoom ñaar ñuy màgg ni dooley xayma ak exponent yu noonu, kon ratio xayma-gëna des ci wetu 20 jetons ci parametre bu nekk.
Xam yooni eskalaasioŋ Chinchilla
Yoon scaling Chinchilla, yu bawoo ci DeepMind ci 2022, dafa wane ni modelu làkk yu mag yi bari wuñu woon luñu tàggat bu baax: ngir am budget ordinatër bu takku, danga wara scaleer dayo model bi ak done yiñ tàggat ci anam wu tolloo. Dafa am solo ndax dafa joxe leeral yu bees ci li 'optimal' model size tekki ba noppi soppi anam wi lab yi di jëfandikoo ordinatër. Chinchilla Scaling Laws bokk na ci lakk-IA stack bi ñuy jëfandikoo ngir jàng, defar, xaaj, ak soppi mbind ak wax ci eskaal. Ngir tabax xam-xam bu xóot, jàppal Chinchilla Scaling Laws ni xeetu liggéey, du benn man-man: leeral njariñ yi nga bëgg, leeral xalaat yi, ba noppi tàqale li sistem bi mëna def ci anam wu wóor ak li ba leegi soxla àtteb kàngam.
Ci jëf, ekip yu am doole yiy jëfandikoo Chinchilla Scaling Laws ñu ngi defar ay laaj, seet ak xoolaat ay bouclage ni benn sistemu jokkoo buñ boole. Dañuy bind kritër yu leer ngir am ndam, natt leen ci done yu dëggu ak def liggéey, ba noppi ñu baamtu ci anamu ñàkka mëna seetlu, du ci benn yoon benchmark wins. Mooy barab bi xam-xam theorie bi di soppiku nekk kàttan buy yàgg ci produit yi, ci politik yi ak ci liggéey yi.
Liggéeyukaay yi ci làkk yi mën nañu gëna gaaw te duñu yàq deggoo gi. Ci jamano jooju, mbiri Hallucinated mën nañu dugg ci rapoor yi, jàppale flow yi, wala gëstu yi génne. Xeetu jëf bi gëna dëgër mooy boole gaawaayu jàngat ak disipline nguur: doxal pilote, jàpp firnde, siiwal dogal yi, ak wéy di yeesal kaaraange gi ci anam wi ñuy doxalee, li jëfandikukat bi di xaar, ak sàrti sàrt yi di jëm kanam.
njeextalu pexe
Liggéeyukaay yi ci làkk yi mën nañu gëna gaaw te duñu yàq deggoo gi.
Liggéeyukaay yi ci làkk yi mën nañu gëna gaaw te duñu yàq deggoo gi. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Dafay yaatal jëfandikoo gi ci làkk yi ak ci anam yi ñuy jokkoo.
Dafay yaatal jëfandikoo gi ci làkk yi ak ci anam yi ñuy jokkoo. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Ekip yi mën nañu gëna yàgg ci àtte ci jamono ji otomatisation di liggéey ci baamtu.
Ekip yi mën nañu gëna yàgg ci àtte ci jamono ji otomatisation di liggéey ci baamtu. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Doxal ci àdduna dëgg
DeepMind's 70B-parametre Chinchilla moo raw Gopher 280B ci ay référence di jëfandikoo ordinatër buy méngoo, ci di tàggat ci ay done yu bari
Di jàppale ekip yi ñu budget lu tollu ci 20 jetons tàggat ci parametre bu nekk suñuy waajal ab model bu tàmbalee ci noonu
Justifier model yu gëna ndaw, yu bari ay done yu melni LLaMA yu gëna xéewale ci diiru inference
Xayma ndax xeetu waajal bi 'ñu tàggatul bu baax' te dina gëna am njariñ ci ay done yu gëna bari ay parametre yu gëna bari
Modèlu jëfandikoo
Yoon yiy yamale chinchilla ci jëf
DeepMind's 70B-parametre Chinchilla moo raw 280B Gopher ci ay référence di jëfandikoo ordinatër buy méngoo, ci di tàggat ci done yu bari.
DeepMind's 70B-parameter Chinchilla dafa raw 280B Gopher ci benchmarks jëfandikoo ordinatër bu tolloo, ci tàggat ci done yu bari. Ekip yi dañuy faral di am njariñ yu gëna baax suñu leeralee kalite ci kanam, tëye yoonu eskalaasioŋ nit ngir jafe-jafe yi, ak topp njuumte yi ci diir bi.
Yoon yiy yamale chinchilla ci jëf
Yorandi ekip yi ñu def seen budget lu tollu ci 20 token tàggat yaram ci parametre bu nekk suñuy waajal xeetu tàggat yaram bu tàmbalee ci noonu.
Gid ekip yi ngir budget lu tollu ci 20 jetons tàggat yaram ci parametre bu nekk suñuy waajal benn model bu joge ci noonu. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.
Yoon yiy yamale chinchilla ci jëf
Justifier model yu gëna ndaw, yu bari ay done yu melni LLaMA yu gëna xéewale ci diiru inference.
Justifier model yu gëna ndaw, yu am ay done yu melni LLaMA yu gëna yomb ngir daw ci waxtu inference Teams yi dañuy faral di am njariñ yu gëna baax suñu joxee thresholds yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.
Yoon yiy yamale chinchilla ci jëf
Xayma ndax xeetu waajal bi 'ñu tàggatul bu baax' te dina gëna am njariñ ci done yu gëna bari ak yeneen parametre.
Xayma ndax benn xeetu waajal 'undertrained' te dina gëna am njariñ ci ay done yu gëna bari ay parametre yu gëna bari. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee ay kalite ci kanam, tëye yoon wi nit ñi di yokk ngir jafe-jafe yi, ba noppi topp njariñu liggéey bi ak njëgu njuumte yi ci diir bu gàtt.
Risk yi ak balustrade yi
Lépp lu jaarul yoon mën na dugg ci rapoor yi, jàppale ci liggéey bi, wala ci njariñu gëstu bi.
Sensibilite bu gaaw mën na jur njariñ yu wuute ci laajte yu noonu mel.
Done yu am solo mën nañu feeñ sudee seytu jëfandikoo gi néew doole.
Roadmap ngir samp gi
Mandargal formaa génne gi, melokaan bi, ak standard kalite yi laata ngay dugal ko.
Mandargal formaa génne gi, melokaan bi, ak standard kalite yi laata ngay dugal ko. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppalu génne gi, tëj bërëb bi, ba noppi yokk jëfandikoo gi.
Tontu yu am solo ak balluwaay yu wóor saa yu dëggu bi di am solo.
Tontu yu am solo ak balluwaay yu wóor saa yu dëggu bi di am solo. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppalu génne gi, tëj bërëb bi, ba noppi yokk jëfandikoo gi.
Fexeel am barabu xool nit ñi ngir am njariñ yu am solo.
Fexeel am barabu xool nit ñi ngir am njariñ yu am solo. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppalu génne gi, tëj bërëb bi, ba noppi yokk jëfandikoo gi.
Toppal anami gacce yi ak di faral di tàggataat ay laaj wala def-liggéey.
Toppal anami gacce yi ak di faral di tàggataat ay laaj wala def-liggéey. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppalu génne gi, tëj bërëb bi, ba noppi yokk jëfandikoo gi.