MWONGOZO wa Kiufundi

GPTQ na Ukadiriaji wa Baada ya Mafunzo ya AWQ

GPTQ na AWQ ni njia mbili kuu za kupunguza miundo ya lugha iliyofunzwa tayari hadi usahihi wa biti 4 ili zitumie maunzi ya bei nafuu na madogo.

Muhtasari

GPTQ na AWQ ni njia mbili kuu za kupunguza miundo ya lugha iliyofunzwa tayari hadi usahihi wa biti 4 ili zitumie maunzi ya bei nafuu na madogo. Ndio sababu unaweza kuendesha muundo mzuri kwenye GPU moja ya watumiaji badala ya rack ya datacenter.

GPTQ na AWQ Post-Training Quantization ni jengo la kiufundi ambalo linaathiri ubora wa kielelezo, gharama ya miundombinu, muda wa kusubiri, na kutegemewa kwa kiwango.

Dive ya kina

Ukadiriaji wa baada ya mafunzo (PTQ) hubana muundo uliokamilika bila kuuzoeza tena, ikitengeneza uzani wa usahihi wa hali ya juu hadi biti 4 hadi takriban robo ya kumbukumbu. Changamoto ni kufanya hivi bila kuharibu usahihi. GPTQ (uboreshaji wa OBQ) hukadiria uzito safu kwa safu, kwa kutumia maelezo ya mpangilio wa pili kutoka kwa mkusanyiko mdogo wa data wa urekebishaji ili kurekebisha uzani uliosalia na kufidia kila hitilafu ya kuzungusha. AWQ (Ukadiriaji wa Uzito unaotambua Uwezeshaji) huchukua pembe tofauti: inaona kuwa sehemu ndogo ya chaneli za uzani ni muhimu kwa usawa, inatambulika kwa kuangalia ukubwa wa kuwezesha, na hulinda njia hizo muhimu kwa kuongeza badala ya kuzipunguza kwa fujo. Zote mbili huruhusu miundo kama Llama iendeshe kwa 4-bit, na zana kama vile vLLM, llama.cpp, na AutoGPTQ zimezifanya kuwa za kawaida kwa makisio ya ndani na ya gharama nafuu.

Ufahamu wa Kiufundi

GPTQ hutumia ukadiriaji wa Hessian (mpindano wa hasara) kuamua jinsi kuzungusha uzani mmoja kunapaswa kuwavuta wengine, na kupunguza hitilafu iliyoletwa. AWQ inaruka Hessians kabisa: inakokotoa kipengele cha kuongeza kwa kila chaneli ili chaneli muhimu za uzani ziweke usahihi wao bora, kisha zipunguze kwa usawa. Zote mbili huweka uwezeshaji katika usahihi wa juu na kubana tu uzani, kwani uzani hutawala kumbukumbu huku ukadiriaji wa kuwezesha huelekea kuumiza usahihi zaidi.

Kujua GPTQ na Ukadiriaji wa Baada ya Mafunzo ya AWQ

GPTQ na AWQ ni njia mbili kuu za kupunguza miundo ya lugha ambayo tayari imefunzwa hadi usahihi wa biti 4 ili zitumie maunzi ya bei nafuu na madogo. Ndio sababu unaweza kuendesha muundo mzuri kwenye GPU moja ya watumiaji badala ya rack ya datacenter. GPTQ na AWQ Post-Training Quantization ni jengo la kiufundi ambalo linaathiri ubora wa kielelezo, gharama ya miundombinu, muda wa kusubiri, na kutegemewa kwa kiwango. Ili kujenga uelewa wa kina, chukulia Ukadiriaji wa Baada ya Mafunzo ya GPTQ na AWQ kama kielelezo cha uendeshaji, si kipengele kimoja: kufafanua matokeo yanayotarajiwa, kufafanua mawazo, na kutenganisha kile ambacho mfumo unaweza kufanya kwa uhakika na kile ambacho bado kinahitaji uamuzi wa kitaalamu.

Katika mazoezi, timu dhabiti zinazotumia GPTQ na Ukadiriaji wa Baada ya Mafunzo ya AWQ huboresha usanifu, data na chaguo za miundombinu dhidi ya kutegemewa na gharama. Huandika vigezo dhahiri vya kufaulu, kujaribu dhidi ya data halisi na mtiririko wa kazi, na kurudia kulingana na mifumo ya kushindwa iliyoonekana badala ya ushindi wa mara moja wa benchmark. Hapa ndipo uelewa wa kinadharia unapogeuka kuwa uwezo wa kudumu katika bidhaa, sera na uendeshaji.

Maamuzi ya usanifu huendesha utendaji na gharama ya uendeshaji kwa miaka. Wakati huo huo, Kuboresha kipimo kimoja kunaweza kuficha udhaifu mpana wa mfumo. Mbinu thabiti zaidi ni kuchanganya kasi ya majaribio na nidhamu ya utawala: kuendesha majaribio, kunasa ushahidi, kuchapisha kumbukumbu za maamuzi, na kuendelea kusasisha ulinzi huku tabia ya kielelezo, matarajio ya watumiaji na mahitaji ya udhibiti yanapobadilika.

Athari za kimkakati

Maamuzi ya usanifu huendesha utendaji na gharama ya uendeshaji kwa miaka.

Maamuzi ya usanifu huendesha utendaji na gharama ya uendeshaji kwa miaka. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Elimu ya kiufundi husaidia timu kuchagua safu sahihi, sio tu mpya zaidi.

Elimu ya kiufundi husaidia timu kuchagua safu sahihi, sio tu mpya zaidi. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Chaguo bora za uhandisi hupunguza matukio ya kuaminika katika uzalishaji.

Chaguo bora za uhandisi hupunguza matukio ya kuaminika katika uzalishaji. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Mustakabali wa GPTQ na Ukadiriaji wa Baada ya Mafunzo ya AWQ

Ukadiriaji unasukuma chini ya biti 4 kuelekea 3-bit, 2-bit, na mipango ya usahihi mchanganyiko, ambayo mara nyingi hujumuishwa na uchache. Tarajia muunganisho wa karibu na injini zinazohudumia ili ujazo, ufinyu wa kache ya KV, na usimbaji wa kubahatisha ufanye kazi pamoja. Usaidizi wa maunzi kwa miundo ya kiwango cha chini kama NVFP4 na MXFP4 inapevuka, na zana za kiotomatiki zitazidi kuchagua upana wa kila safu. Lengo pana ni karibu-hasara 4-bit (na chini) kama chaguo-msingi, na kufanya miundo thabiti iwe nafuu kutumika kila mahali.

Utekelezaji wa Ulimwengu Halisi

Inatumia muundo wa Llama wa kigezo cha bilioni 70 kwenye GPU moja ya mtumiaji ya GB 24 kwa kutumia uzani wa 4-bit GPTQ.

Miundo iliyopimwa kwa kiasi cha AWQ inayotolewa kwa kiwango cha juu katika vLLM kwa API za uzalishaji za gharama nafuu.

llama.cpp kwa kutumia uzani wa GGUF uliokaguliwa ili kuendesha miundo ya lugha ndani ya kompyuta ya kompyuta ya CPU.

Maktaba za AutoGPTQ za Hugging Face na AutoAWQ zinazowaruhusu wasanidi programu kukadiria muundo uliopakuliwa katika mistari michache ya msimbo.

Miundo ya Utekelezaji

GPTQ na AWQ Baada ya Mafunzo Quantization katika mazoezi

Inatumia muundo wa Llama wa kigezo cha bilioni 70 kwenye GPU moja ya mtumiaji ya GB 24 kwa kutumia uzani wa 4-bit GPTQ.

Kuendesha muundo wa Llama wa kigezo cha bilioni 70 kwenye GPU moja ya mtumiaji ya GB 24 kwa kutumia uzani wa GPTQ wa biti 4 kwa kawaida Timu hupata matokeo bora zaidi zinapofafanua viwango vya juu vya ubora mbele, kuweka njia ya kupanda juu ya matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

GPTQ na AWQ Baada ya Mafunzo Quantization katika mazoezi

Miundo iliyopimwa kwa kiasi cha AWQ inayotolewa kwa kiwango cha juu katika vLLM kwa API za uzalishaji za gharama nafuu.

Miundo iliyopimwa kwa kiasi cha AWQ inayotolewa kwa matokeo ya juu katika vLLM kwa API za uzalishaji wa gharama nafuu Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

GPTQ na AWQ Baada ya Mafunzo Quantization katika mazoezi

llama.cpp kwa kutumia uzani wa GGUF uliokaguliwa ili kuendesha miundo ya lugha ndani ya kompyuta ya kompyuta ya CPU.

llama.cpp kwa kutumia vipimo vilivyokamilishwa vya GGUF ili kuendesha miundo ya lugha ndani ya kompyuta ya mkononi kwa kawaida Timu za CPU hupata matokeo bora zaidi zinapofafanua viwango vya ubora wa juu, kuweka njia ya kupanda juu ya hali ya juu ya binadamu, na kufuatilia faida za tija na gharama za hitilafu kwa wakati.

GPTQ na AWQ Baada ya Mafunzo Quantization katika mazoezi

Maktaba za AutoGPTQ za Hugging Face na AutoAWQ zinazowaruhusu wasanidi programu kukadiria muundo uliopakuliwa katika mistari michache ya msimbo.

Maktaba za AutoGPTQ za Hugging Face na AutoAWQ zinazowaruhusu wasanidi programu kukadiria muundo uliopakuliwa katika safu chache za misimbo Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua vizingiti vya ubora mbele, kuweka njia ya kupanda juu ya matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

Hatari & Walinzi

!

Kuboresha kiwango kimoja kunaweza kuficha udhaifu mkubwa wa mfumo.

!

Gharama za miundombinu na matengenezo mara nyingi hupunguzwa.

!

Mapengo ya usalama na uonekanaji yanaweza kukua kadiri mifumo inavyozidi kuwa ngumu.

Ramani ya Utekelezaji

1

Bainisha muda, ubora na malengo ya gharama kabla ya utekelezaji.

Bainisha muda, ubora na malengo ya gharama kabla ya utekelezaji. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

2

Benchmark chini ya mzigo halisi na hali ya data.

Benchmark chini ya mzigo halisi na hali ya data. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

3

Ufuatiliaji wa ala kwa makosa, kuteleza, na athari za mtumiaji.

Ufuatiliaji wa ala kwa makosa, kuteleza, na athari za mtumiaji. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

4

Tayarisha njia za urejeshaji na majibu ya matukio kabla ya kuongeza ukubwa.

Tayarisha njia za urejeshaji na majibu ya matukio kabla ya kuongeza ukubwa. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

Endelea Kuchunguza