Akopọ
GPTQ ati AWQ jẹ awọn ọna asiwaju meji fun idinku awọn awoṣe ede ti a ti kọ tẹlẹ si 4-bit konge ki wọn ṣiṣẹ lori din owo, ohun elo kekere. Wọn jẹ idi ti o le ṣiṣe awoṣe ti o lagbara lori GPU olumulo kan dipo agbeko datacenter.
GPTQ ati AWQ Post-Training Quantization jẹ ipilẹ imọ-ẹrọ ti o ni ipa lori didara awoṣe, idiyele amayederun, lairi, ati igbẹkẹle ni iwọn.
Jin Dive
Quantization ikẹkọ lẹhin-ikẹkọ (PTQ) ṣe compress awoṣe ti o pari laisi atunṣeto rẹ, ṣe aworan awọn iwọn konge giga si isalẹ si awọn iwọn 4 si aijọju idamẹrin iranti. Ipenija naa ni ṣiṣe eyi laisi išedede ibajẹ. GPTQ (isọdọtun ti OBQ) ṣe iwọn Layer awọn iwọn nipasẹ Layer, ni lilo alaye aṣẹ-keji lati inu data isọdiwọn kekere lati ṣatunṣe awọn iwuwo to ku ati isanpada fun aṣiṣe iyipo kọọkan. AWQ (Imudara-imọ iwuwo iwuwo) gba igun ti o yatọ: o ṣe akiyesi pe ida kekere kan ti awọn ikanni iwuwo jẹ pataki aibikita, ti a damọ nipasẹ wiwo awọn iwọn imuṣiṣẹ, ati aabo awọn ikanni salient wọnyẹn nipasẹ iwọn kuku ju pipọ wọn ni ibinu. Mejeeji jẹ ki awọn awoṣe bii Llama ṣiṣẹ ni 4-bit, ati awọn irinṣẹ bii vLLM, llama.cpp, ati AutoGPTQ ti jẹ ki wọn jẹ akọkọ fun itọkasi agbegbe ati idiyele-daradara.
Imọ-imọ-ẹrọ
GPTQ nlo isunmọ ti Hessian (ìsépo ti isonu) lati pinnu bi iyipo iwuwo kan ṣe yẹ ki o nu awọn miiran, dinku aṣiṣe ti a ṣafihan. AWQ fo awọn Hessians patapata: o ṣe iṣiro ifosiwewe iwọn-ikanni kan ki awọn ikanni iwuwo pataki tọju iṣedede ti o munadoko wọn, lẹhinna ṣe iwọn ni iṣọkan. Mejeeji tọju awọn iṣẹ ṣiṣe ni konge ti o ga julọ ati awọn iwuwo compress nikan, niwọn igba ti awọn iwuwo jẹ gaba lori iranti lakoko ti iwọn imuṣiṣẹ duro lati ṣe ipalara deede diẹ sii.
Mastering GPTQ ati AWQ Post-Training Quantization
GPTQ ati AWQ jẹ awọn ọna asiwaju meji fun idinku awọn awoṣe ede ti a ti kọ tẹlẹ si 4-bit konge ki wọn ṣiṣẹ lori din owo, ohun elo kekere. Wọn jẹ idi ti o le ṣiṣe awoṣe ti o lagbara lori GPU olumulo kan dipo agbeko datacenter. GPTQ ati AWQ Post-Training Quantization jẹ ipilẹ imọ-ẹrọ ti o ni ipa lori didara awoṣe, idiyele amayederun, lairi, ati igbẹkẹle ni iwọn. Lati kọ oye ti o jinlẹ, tọju GPTQ ati AWQ Post-Training Quantization bi awoṣe iṣẹ, kii ṣe ẹya ẹyọkan: ṣalaye awọn abajade ti o fẹ, ṣe alaye awọn arosọ, ati lọtọ ohun ti eto le ṣe ni igbẹkẹle lati ohun ti o tun nilo idajọ amoye.
Ni iṣe, awọn ẹgbẹ ti o lagbara ni lilo GPTQ ati AWQ Post-Training Quantization ṣe iṣapeye faaji, data, ati awọn yiyan amayederun lodi si igbẹkẹle ati idiyele. Wọn ṣe akọsilẹ awọn ibeere aṣeyọri ti o fojuhan, idanwo lodi si data ojulowo ati ṣiṣan iṣẹ, ati atunbere ti o da lori awọn ilana ikuna ti a ṣakiyesi dipo awọn bori ala-akoko kan. Eyi ni ibiti oye imọ-jinlẹ yipada si agbara ti o tọ kọja ọja, eto imulo, ati awọn iṣẹ ṣiṣe.
Awọn ipinnu faaji ṣe awakọ iṣẹ ati idiyele iṣẹ fun awọn ọdun. Ni akoko kanna, Imudara iwọn ala kan le tọju awọn ailagbara eto to gbooro. Ọna resilient julọ julọ ni lati darapọ iyara idanwo pẹlu ibawi ijọba: ṣiṣe awọn awakọ awakọ, mu ẹri mu, ṣe atẹjade awọn iwe ipinnu, ati imudojuiwọn awọn aabo nigbagbogbo bi ihuwasi awoṣe, awọn ireti olumulo, ati awọn ibeere ilana ti dagbasoke.
Ipa Ilana
Awọn ipinnu faaji ṣe awakọ iṣẹ ati idiyele iṣẹ fun awọn ọdun.
Awọn ipinnu faaji ṣe awakọ iṣẹ ati idiyele iṣẹ fun awọn ọdun. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Ẹkọ imọ-ẹrọ ṣe iranlọwọ fun awọn ẹgbẹ lati yan akopọ to tọ, kii ṣe ọkan tuntun nikan.
Ẹkọ imọ-ẹrọ ṣe iranlọwọ fun awọn ẹgbẹ lati yan akopọ to tọ, kii ṣe ọkan tuntun nikan. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Awọn yiyan imọ-ẹrọ to dara julọ dinku awọn iṣẹlẹ igbẹkẹle ni iṣelọpọ.
Awọn yiyan imọ-ẹrọ to dara julọ dinku awọn iṣẹlẹ igbẹkẹle ni iṣelọpọ. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Real-World imuse
Nṣiṣẹ awoṣe Llama paramita 70-bilionu-biliọnu kan lori GPU olumulo 24 GB kan ni lilo awọn iwuwo GPTQ 4-bit.
Awọn awoṣe ti a ṣe iwọn AWQ ṣiṣẹ ni iṣelọpọ giga ni vLLM fun awọn API iṣelọpọ iye owo daradara.
llama.cpp ni lilo awọn iwuwo GGUF ti o ni iwọn lati ṣiṣe awọn awoṣe ede ni agbegbe lori Sipiyu laptop kan.
Famọra Face's AutoGPTQ ati awọn ile-ikawe AutoAWQ n jẹ ki awọn olupolowo ṣe iwọn awoṣe ti a ṣe igbasilẹ ni awọn laini koodu diẹ.
Awọn Ilana imuse
GPTQ ati AWQ Post-Training Quantization ni iṣe
Nṣiṣẹ awoṣe Llama paramita 70-bilionu-biliọnu kan lori GPU olumulo 24 GB kan ni lilo awọn iwuwo GPTQ 4-bit.
Ṣiṣe awoṣe Llama paramita 70-bilionu-biliọnu kan lori 24 GB onibara GPU kan ni lilo awọn iwuwo GPTQ 4-bit Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe lori akoko.
GPTQ ati AWQ Post-Training Quantization ni iṣe
Awọn awoṣe ti a ṣe iwọn AWQ ṣiṣẹ ni iṣelọpọ giga ni vLLM fun awọn API iṣelọpọ iye owo daradara.
Awọn awoṣe ti a ṣe iwọn AWQ ti o ṣiṣẹ ni iṣelọpọ giga ni vLLM fun iṣelọpọ idiyele-daradara API Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe lori akoko.
GPTQ ati AWQ Post-Training Quantization ni iṣe
llama.cpp ni lilo awọn iwuwo GGUF ti o ni iwọn lati ṣiṣe awọn awoṣe ede ni agbegbe lori Sipiyu laptop kan.
llama.cpp ni lilo awọn iwọn GGUF ti o ni iwọn lati ṣiṣe awọn awoṣe ede ni agbegbe lori kọǹpútà alágbèéká kan Awọn ẹgbẹ Sipiyu maa n gba awọn abajade to dara julọ nigbati wọn ba ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.
GPTQ ati AWQ Post-Training Quantization ni iṣe
Famọra Face's AutoGPTQ ati awọn ile-ikawe AutoAWQ n jẹ ki awọn olupolowo ṣe iwọn awoṣe ti a ṣe igbasilẹ ni awọn laini koodu diẹ.
Face's AutoGPTQ ati awọn ile-ikawe AutoAWQ n jẹ ki awọn olupilẹṣẹ ṣe iwọn awoṣe ti o gbasilẹ ni awọn laini diẹ ti koodu Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe ni akoko pupọ.
Awọn ewu & Awọn ọna iṣọ
Ṣiṣepe ala-ilẹ kan le tọju awọn ailagbara eto ti o gbooro.
Awọn ohun elo amayederun ati awọn idiyele itọju nigbagbogbo ni aibikita.
Aabo ati awọn ela akiyesi le dagba bi awọn eto ṣe di eka sii.
Ilana Ilana imuse
Ṣetumo lairi, didara, ati awọn ibi-afẹde idiyele ṣaaju imuse.
Ṣetumo lairi, didara, ati awọn ibi-afẹde idiyele ṣaaju imuse. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Aṣepari labẹ ẹru ojulowo ati awọn ipo data.
Aṣepari labẹ ẹru ojulowo ati awọn ipo data. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Abojuto ohun elo fun awọn aṣiṣe, fiseete, ati ipa olumulo.
Abojuto ohun elo fun awọn aṣiṣe, fiseete, ati ipa olumulo. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Mura ipadasẹhin pada ati awọn ipa ọna esi iṣẹlẹ ṣaaju iwọn.
Mura ipadasẹhin pada ati awọn ipa ọna esi iṣẹlẹ ṣaaju iwọn. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.