Ntụziaka nka

GPTQ na AWQ Ngụkọta Ọzụzụ gasịchara

GPTQ na AWQ bụ ụzọ abụọ na-eduga maka ibelata ụdị asụsụ a zụrụ azụ na nkenke 4-bit ka ha na-agba ọsọ na ngwaike dị ọnụ ala karịa.

Nchịkọta

GPTQ na AWQ bụ ụzọ abụọ na-eduga maka ibelata ụdị asụsụ a zụrụ azụ na nkenke 4-bit ka ha na-agba ọsọ na ngwaike dị ọnụ ala karịa. Ha bụ ya mere ị ga-eji nwee ike ịgba ọsọ ihe nlereanya na otu GPU ndị na-azụ ahịa kama ịkwado datacenter.

GPTQ na AWQ Post-Training Quantization bụ ngọngọ ụlọ ọrụ nka nke na-emetụta àgwà nlereanya, ọnụ ahịa akụrụngwa, latency, na ntụkwasị obi na ọnụ ọgụgụ.

Ime miri emi

Quantization nke ọzụzụ ọzụzụ (PTQ) na-akpakọ ụdị emechara na-azụghachighị ya, na-esepụta oke dị elu ruo 4 ibe n'ibe ruo ihe dị ka nkeji iri na ise nke ebe nchekwa. Ihe ịma aka bụ ime nke a n'emebighị ihe ziri ezi. GPTQ (nkwacha nke OBQ) na-atụle oyi akwa site na oyi akwa, na-eji ozi usoro nke abụọ sitere na obere nhazi dataset iji mezie nha ndị fọdụrụ wee kwụọ ụgwọ maka njehie okirikiri ọ bụla. AWQ (Activation-aware Weight Quantization) na-ewe akụkụ dị iche iche: ọ na-achọpụta na obere akụkụ nke ọwa ibu dị mkpa na-enweghị atụ, nke a na-achọpụta site n'ile anya n'ogo mmalite, ma na-echebe ọwa ndị ahụ dị egwu site n'ịtụgharị karịa ịkọpụta ha n'ike. Ha abụọ kwere ka ụdị dị ka Llama na-agba ọsọ na 4-bit, na ngwaọrụ ndị dị ka vLLM, llama.cpp, na AutoGPTQ emeela ka ha bụrụ isi maka ntinye aka na mpaghara na ọnụ ahịa.

Nghọta nka nka

GPTQ na-eji ihe dị ka Hessian (curvature of the loss) na-ekpebi ka ịgbakọ otu ịdị arọ ga-esi kụda ndị ọzọ, na-ebelata njehie ewepụtara. AWQ na-amapụ ndị Hessia kpam kpam: ọ na-agbakọ ihe na-eme ka ọwa ọ bụla wee na-eme ka ọwa ịdị arọ dị mkpa na-edobe nke ọma nke ọma, wee tụọ ọnụ n'otu n'otu. Ha abụọ na-edobe mmemme n'ụzọ ziri ezi ma na-akpakọba ihe dị arọ, ebe ọ bụ na ịdị arọ na-achịkwa ebe nchekwa ebe ịgbalite quantization na-emerụ ahụ nke ọma karịa.

Ịkwalite GPTQ na AWQ Ngụkọta Ọzụzụ Post-Training

GPTQ na AWQ bụ ụzọ abụọ na-eduga maka ibelata ụdị asụsụ a zụrụ azụ na nkenke 4-bit ka ha na-agba ọsọ na ngwaike dị ọnụ ala karịa. Ha bụ ya mere ị ga-eji nwee ike ịgba ọsọ ihe nlereanya na otu GPU ndị na-azụ ahịa kama ịkwado datacenter. GPTQ na AWQ Post-Training Quantization bụ ngọngọ ụlọ ọrụ nka nke na-emetụta àgwà nlereanya, ọnụ ahịa akụrụngwa, latency, na ntụkwasị obi na ọnụ ọgụgụ. Iji wuo nghọta miri emi, na-emeso GPTQ na AWQ Post-Training Quantization dị ka ihe nlereanya na-arụ ọrụ, ọ bụghị otu akụkụ: kọwaa nsonaazụ achọrọ, dokwuo anya echiche, ma kewaa ihe sistemụ nwere ike ime nke ọma na ihe ka na-achọ mkpebi ndị ọkachamara.

Na omume, otu siri ike na-eji GPTQ na AWQ Post-Training Quantization na-ebuli ụkpụrụ ụlọ, data, na nhọrọ akụrụngwa megide ntụkwasị obi na ọnụ ahịa. Ha na-edepụta njirisi ịga nke ọma nke ọma, nwalee megide data ziri ezi yana usoro ọrụ, yana na-atụgharị dabere na usoro ọdịda ahụrụ karịa karịa mmeri otu oge. Nke a bụ ebe nghọta usoro ihe atụ na-atụgharị ghọọ ike na-adịgide adịgide n'ofe ngwaahịa, amụma na arụmọrụ.

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'otu oge ahụ, ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara. Ụzọ kachasị na-agbanwe agbanwe bụ ijikọ ọsọ nnwale na ịdọ aka ná ntị ọchịchị: ndị na-anya ụgbọ elu, ijide ihe akaebe, bipụta ndekọ mkpebi, na na-aga n'ihu na-emelite nchekwa dị ka omume nlereanya, atụmanya ndị ọrụ, na ihe iwu chọrọ.

Mmetụta atụmatụ

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ.

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ.

Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta.

Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Ọdịnihu nke GPTQ na AWQ Post-Training Quantization

Quantization na-agbada n'okpuru 4 bits gaa na atụmatụ 3-bit, 2-bit na ngwakọta nke ọma, na-ejikọta ya na sparsity. Na-atụ anya njikọ dị nso na injin ndị na-eje ozi ka ọnụ ọgụgụ, mkpakọ KV-cache, na ngbanwe nke ịkọ nkọ ga-arụkọ ọrụ ọnụ. Nkwado ngwaike maka ụdị obere bit dị ka NVFP4 na MXFP4 na-eto eto, na ngwaọrụ akpaaka ga-ebuwanye ibu n'obosara nke ọ bụla. Ebumnuche sara mbara dị nso 4-bit (ma dị ala) dị ka ndabara, na-eme ka ụdị siri ike dị ọnụ ala iji jee ozi ebe niile.

Mmejuputa n'ezie n'ụwa

Na-agba ọsọ ụdị Llama nha ijeri 70 na otu GPU ndị ahịa 24 GB na-eji 4-bit GPTQ arọ.

Ụdị agbakọrọ ọnụ AWQ jere ozi na ntinye dị elu na vLLM maka mmepụta API nke na-arụ ọrụ nke ọma.

llama.cpp na-eji ihe ọ̀tụ̀tụ̀ GGUF atụnyere iji mee ụdị asụsụ na mpaghara na laptọọpụ CPU.

Ịmak Face's AutoGPTQ na AutoAWQ ọba akwụkwọ na-ahapụ ndị mmepe tụọ ụdị ebudatara n'ahịrị koodu ole na ole.

Usoro mmejuputa

GPTQ na AWQ Post-Training Quantization na omume

Na-agba ọsọ ụdị Llama nha ijeri 70 na otu GPU ndị ahịa 24 GB na-eji 4-bit GPTQ arọ.

Na-agba ọsọ ụdị Llama 70-ijeri-ijeri na otu 24 GB nke ndị na-azụ ahịa GPU na-eji 4-bit GPTQ arọ Ndị otu na-enwetakarị nsonaazụ ka mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, debe ụzọ mmụba mmadụ maka ikpe ihu, ma soro ma uru nrụpụta na ụgwọ njehie n'ime oge.

GPTQ na AWQ Post-Training Quantization na omume

Ụdị agbakọrọ ọnụ AWQ jere ozi na ntinye dị elu na vLLM maka mmepụta API nke na-arụ ọrụ nke ọma.

Ụdị nke AWQ na-arụ ọrụ na ntinye dị elu na vLLM maka mmepụta API dị oke ọnụ ahịa Otu dị iche iche na-enwetakarị nsonaazụ ka mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-eme ka ụzọ mmadụ si abawanye maka ọnụ ọnụ, ma soro ma uru mmepụta na ụgwọ njehie na oge.

GPTQ na AWQ Post-Training Quantization na omume

llama.cpp na-eji ihe ọ̀tụ̀tụ̀ GGUF atụnyere iji mee ụdị asụsụ na mpaghara na laptọọpụ CPU.

llama.cpp iji quantized GGUF weights iji na-agba ọsọ ụdị asụsụ na mpaghara na laptọọpụ CPU Otu na-enwetakarị nsonaazụ ka mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-edobe ụzọ ịrị elu mmadụ maka ikpe ikpe, ma soro ma uru nrụpụta yana ụgwọ njehie na oge.

GPTQ na AWQ Post-Training Quantization na omume

Ịmak Face's AutoGPTQ na AutoAWQ ọba akwụkwọ na-ahapụ ndị mmepe tụọ ụdị ebudatara n'ahịrị koodu ole na ole.

Ịmak Face's AutoGPTQ na AutoAWQ ọba akwụkwọ na-ahapụ ndị mmepe ka ha nyochaa ụdị ebudatara n'ahịrị ole na ole nke koodu Otu dị iche iche na-enwetakarị nsonaazụ kacha mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-edebe ụzọ mmụba mmadụ maka ọnụ ọnụ, ma soro ma uru nrụpụta na ụgwọ njehie na oge.

Ihe ize ndụ & okporo ụzọ nche

!

Ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara.

!

A na-eledakarị ihe akụrụngwa na ụgwọ ọrụ anya.

!

Ọdịiche nchekwa na nleba anya nwere ike itolite ka sistemu na-adịwanye mgbagwoju anya.

Map mmejuputa

1

Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya.

Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

2

Benchmark n'okpuru ibu dị adị na ọnọdụ data.

Benchmark n'okpuru ibu dị adị na ọnọdụ data. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

3

Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ.

Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

4

Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa.

Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

Nọgide na-eme nchọpụta