GUIDE teknik

GPTQ ak AWQ ginaaw tàggat

GPTQ ak AWQ ñaari pexe yu gëna am solo lañu ngir wàññi modeli làkk yiñ tàggat ba noppi ñu am 4-bit ci njub, suko defee ñu mëna dox ci hardware bu gëna ndaw te yomb njëg.

Résumé

GPTQ ak AWQ ñaari pexe yu gëna am solo lañu ngir wàññi modeli làkk yiñ tàggat ba noppi ñu am 4-bit ci njub, suko defee ñu mëna dox ci hardware bu gëna ndaw te yomb njëg. Moo tax nga mëna doxal model bu mëna liggéey ci benn GPU konsomatër ci barabu rack datacenter.

GPTQ ak AWQ ginaaw tàggat-tàggat kantite ab bloku tabax xarala buy indi jafe-jafe ci kalite model, njëgu infrastructure, latency, ak wóor ci escalier.

Plongeur bu xóot

Quantisation post-training (PTQ) dafay kompresse model bi jeex te duñu ko tàggataat, di karte poid yu am précision bu yéeg ba 4 bits ngir xaaj mémoire bi. Jafe-jafe bi mooy def lii te doo yàq njubte gi. GPTQ (muy setal OBQ) dafay xayma poid yi couche par couche, di jëfandikoo ay leeral ci ñaareelu rang ci benn done bu ndaw ngir méngale poid yi des ak ngir kompensaasioŋ njuumte bu nekk ci rounding. AWQ (Activation-aware Weight Quantization) jël na beneen wàll: dafay seetlu ni paccum chaine yu ndaw yi dañu am solo lool, ñu xamme ko ci xool magnitudes activation, ba noppi aar chaine yu am solo yooyu ci scaling moo gën leen quantize aggressivement. Ñoom ñaar ñépp ñu ngi may model yu melni Llama ñu dox ci 4-bit, jumtukaay yu melni vLLM, llama.cpp, ak AutoGPTQ def leen ñu gëna am solo ci wàllu dëkk ak njëg yu baax.

Gis-gis xarala

GPTQ dafay jëfandikoo ap xayma bu Hessian (courbure bu perte bi) ngir xam naka la benn poid bi wara nudge ñeneen ñi, di wàññi njuumte biñ dugal. AWQ dafay sànni Hessians yépp: dafay xayma facteur de scaling ci chaine bu nekk suko defee chaine yu am solo yi mëna wéy di gëna jub, ba noppi di quantize ci anam wu wuute. Ñoom ñaar ñépp dañuy tëye aktivaasioŋ yi ci gëna dëggu te dañuy kompresse poid yi kese, ndax poid yi ñooy ëpp doole ci mémoire bi ci jamono ji aktivaasioŋ quantisation dafay gëna gaañ njub.

Mastering GPTQ ak AWQ ginaaw tàggat

GPTQ ak AWQ ñaari pexe yu gëna am solo lañu ngir wàññi modeli làkk yiñ tàggat ba noppi ñu am 4-bit ci njub, suko defee ñu mëna dox ci hardware bu gëna ndaw te yomb njëg. Moo tax nga mëna doxal model bu mëna liggéey ci benn GPU konsomatër ci barabu rack datacenter. GPTQ ak AWQ ginaaw tàggat-tàggat kantite ab bloku tabax xarala buy indi jafe-jafe ci kalite model, njëgu infrastructure, latency, ak wóor ci escalier. Ngir tabax xam-xam bu xóot, jàppal GPTQ ak AWQ Post-Training Quantization ni xeetu liggéey, du benn man-man: leeral njariñ yi nga bëgg, leeral xalaat yi, ak tàqale li sistem bi mëna def ci anam wu wóor ak li ba leegi soxla àtteb kàngam.

Ci jëf, ekip yu am doole yiy jëfandikoo GPTQ ak AWQ ginaaw tàggat yaram dañuy gëna baaxal architecture, done, ak tànneefi infrastructure ci wàllu wóor ak njëg. Dañuy bind kritër yu leer ngir am ndam, natt leen ci done yu dëggu ak def liggéey, ba noppi ñu baamtu ci anamu ñàkka mëna seetlu, du ci benn yoon benchmark wins. Mooy barab bi xam-xam theorie bi di soppiku nekk kàttan buy yàgg ci produit yi, ci politik yi ak ci liggéey yi.

Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw. Ci jamano jooju, Optimisation benn benchmark mën na nëbb ñakk kattan yu gëna yaatu ci sistem bi. Xeetu jëf bi gëna dëgër mooy boole gaawaayu jàngat ak disipline nguur: doxal pilote, jàpp firnde, siiwal dogal yi, ak wéy di yeesal kaaraange gi ci anam wi ñuy doxalee, li jëfandikukat bi di xaar, ak sàrti sàrt yi di jëm kanam.

njeextalu pexe

Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw.

Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Njàngalem xarala yi dafay jàppale ekip yi ñu tànn li gën, te baña yam ci li gëna bees daal.

Njàngalem xarala yi dafay jàppale ekip yi ñu tànn li gën, te baña yam ci li gëna bees daal. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Tanneef yu gëna baax ci wàllu ingeñër dina wàññi jafe-jafe yi ci wàllu wóor ci liggéey bi.

Tanneef yu gëna baax ci wàllu ingeñër dina wàññi jafe-jafe yi ci wàllu wóor ci liggéey bi. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Ëlëgu GPTQ ak AWQ ginaaw tàggat

Kantite dafay puus ci suufu 4 bit ci 3-bit, 2-bit, ak xeetu njubte bu jaxaso, di faral di boole ak sparsity. Xaarandi lëkkaloo bu gëna jege ak motër yiy liggéey suko defee kantite, kompresioŋ KV-cache, ak dekodage speculatif bokk liggéey. Jàppale hardware ngir formaa yu ndaw yu melni NVFP4 ak MXFP4 mingi màgg, te jumtukaayi otomatik dina ñu gëna tànn yaatuwaayu bit bu nekk. Mébet bu mag bi mooy 4-bit (ak lu gëna ndaw) bu amul benn perte, moo tax model yu dëgër yi yomb ngir liggéey fépp.

Doxal ci àdduna dëgg

Doxal benn xeetu Llama bu am 70 milyaar ci benn GPU bu 24 GB di jëfandikoo 4-bit GPTQ.

Modèle yiñ xayma ci AWQ dañu am produit bu bari ci vLLM ngir API yu am njariñ.

llama.cpp di jëfandikoo poids GGUF yuñ xayma ngir doxal modeli làkk yi ci CPU ordinatër portable.

Bibliothèque AutoGPTQ ak AutoAWQ yu Hugging Face dañuy may developpeur yi ñu xayma limu model biñ yebbi ci ay ligne kode yu néew.

Modèlu jëfandikoo

GPTQ ak AWQ ginaaw tàggat yaram ci jëfandikoo

Doxal benn xeetu Llama bu am 70 milyaar ci benn GPU bu 24 GB di jëfandikoo 4-bit GPTQ.

Doxal benn xeetu Llama bu 70-milyaar-parametre ci benn GPU bu 24 GB di jëfandikoo 4-bit GPTQ diisaay Teams yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.

GPTQ ak AWQ ginaaw tàggat yaram ci jëfandikoo

Modèle yiñ xayma ci AWQ dañu am produit bu bari ci vLLM ngir API yu am njariñ.

AWQ-modèle quantifié yi liggéey ci produit bu bari ci vLLM ngir APIs yi gëna am njariñ. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit yi ak njëgu njuumte yi ci diir bi.

GPTQ ak AWQ ginaaw tàggat yaram ci jëfandikoo

llama.cpp di jëfandikoo poids GGUF yuñ xayma ngir doxal modeli làkk yi ci CPU ordinatër portable.

llama.cpp jëfandikoo GGUF poids quantized ngir doxal modeli làkk ci gox ci ordinatër portable CPU Teams dañuy faral di am njariñ yu gëna baax suñu joxee thresholds kalite ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ak topp njuréefi produit ak njëgu njuumte ci diir bi.

GPTQ ak AWQ ginaaw tàggat yaram ci jëfandikoo

Bibliothèque AutoGPTQ ak AutoAWQ yu Hugging Face dañuy may developpeur yi ñu xayma limu model biñ yebbi ci ay ligne kode yu néew.

Bibliothèque AutoGPTQ ak AutoAWQ yu Hugging Face may developpeur yi ñu xayma benn model buñ yebbi ci ay ligne kode yu néew. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee ay threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit yi ak njëgu njuumte yi ci diir bi.

Risk yi ak balustrade yi

!

Optimize benn benchmark mën na nëbb ñakk kattan yu gëna yaatu ci sistem bi.

!

Njëg li ñuy fay ci infrastructure yi ak ci toppatoo dañuy faral di suufeel.

!

Bu sistem yi di gëna xawa jafee xam, jafe-jafe yi am ci wàllu kaaraange ak seetlu mën nañu gëna bari.

Roadmap ngir samp gi

1

Mandargal latency, kalite, ak njëg yi laata ngay jëfandikoo.

Mandargal latency, kalite, ak njëg yi laata ngay jëfandikoo. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

2

Benchmark ci biir sargal ak done yu dëggu.

Benchmark ci biir sargal ak done yu dëggu. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

3

Jumtukaay bi di saytu njuumte yi, derive bi ak njeextalu jëfandikukat bi.

Jumtukaay bi di saytu njuumte yi, derive bi ak njeextalu jëfandikukat bi. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

4

Waajal rollback ak yooni tontu ci jafe-jafe yi laata ngay eskale.

Waajal rollback ak yooni tontu ci jafe-jafe yi laata ngay eskale. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

Weyal di banneexu