Muhtasari
GPTQ na AWQ ni njia mbili kuu za kupunguza miundo ya lugha iliyofunzwa tayari hadi usahihi wa biti 4 ili zitumie maunzi ya bei nafuu na madogo. Ndio sababu unaweza kuendesha muundo mzuri kwenye GPU moja ya watumiaji badala ya rack ya datacenter.
GPTQ na AWQ Post-Training Quantization ni jengo la kiufundi ambalo linaathiri ubora wa kielelezo, gharama ya miundombinu, muda wa kusubiri, na kutegemewa kwa kiwango.
Dive ya kina
Ukadiriaji wa baada ya mafunzo (PTQ) hubana muundo uliokamilika bila kuuzoeza tena, ikitengeneza uzani wa usahihi wa hali ya juu hadi biti 4 hadi takriban robo ya kumbukumbu. Changamoto ni kufanya hivi bila kuharibu usahihi. GPTQ (uboreshaji wa OBQ) hukadiria uzito safu kwa safu, kwa kutumia maelezo ya mpangilio wa pili kutoka kwa mkusanyiko mdogo wa data wa urekebishaji ili kurekebisha uzani uliosalia na kufidia kila hitilafu ya kuzungusha. AWQ (Ukadiriaji wa Uzito unaotambua Uwezeshaji) huchukua pembe tofauti: inaona kuwa sehemu ndogo ya chaneli za uzani ni muhimu kwa usawa, inatambulika kwa kuangalia ukubwa wa kuwezesha, na hulinda njia hizo muhimu kwa kuongeza badala ya kuzipunguza kwa fujo. Zote mbili huruhusu miundo kama Llama iendeshe kwa 4-bit, na zana kama vile vLLM, llama.cpp, na AutoGPTQ zimezifanya kuwa za kawaida kwa makisio ya ndani na ya gharama nafuu.
Ufahamu wa Kiufundi
GPTQ hutumia ukadiriaji wa Hessian (mpindano wa hasara) kuamua jinsi kuzungusha uzani mmoja kunapaswa kuwavuta wengine, na kupunguza hitilafu iliyoletwa. AWQ inaruka Hessians kabisa: inakokotoa kipengele cha kuongeza kwa kila chaneli ili chaneli muhimu za uzani ziweke usahihi wao bora, kisha zipunguze kwa usawa. Zote mbili huweka uwezeshaji katika usahihi wa juu na kubana tu uzani, kwani uzani hutawala kumbukumbu huku ukadiriaji wa kuwezesha huelekea kuumiza usahihi zaidi.
Kujua GPTQ na Ukadiriaji wa Baada ya Mafunzo ya AWQ
GPTQ na AWQ ni njia mbili kuu za kupunguza miundo ya lugha ambayo tayari imefunzwa hadi usahihi wa biti 4 ili zitumie maunzi ya bei nafuu na madogo. Ndio sababu unaweza kuendesha muundo mzuri kwenye GPU moja ya watumiaji badala ya rack ya datacenter. GPTQ na AWQ Post-Training Quantization ni jengo la kiufundi ambalo linaathiri ubora wa kielelezo, gharama ya miundombinu, muda wa kusubiri, na kutegemewa kwa kiwango. Ili kujenga uelewa wa kina, chukulia Ukadiriaji wa Baada ya Mafunzo ya GPTQ na AWQ kama kielelezo cha uendeshaji, si kipengele kimoja: kufafanua matokeo yanayotarajiwa, kufafanua mawazo, na kutenganisha kile ambacho mfumo unaweza kufanya kwa uhakika na kile ambacho bado kinahitaji uamuzi wa kitaalamu.
Katika mazoezi, timu dhabiti zinazotumia GPTQ na Ukadiriaji wa Baada ya Mafunzo ya AWQ huboresha usanifu, data na chaguo za miundombinu dhidi ya kutegemewa na gharama. Huandika vigezo dhahiri vya kufaulu, kujaribu dhidi ya data halisi na mtiririko wa kazi, na kurudia kulingana na mifumo ya kushindwa iliyoonekana badala ya ushindi wa mara moja wa benchmark. Hapa ndipo uelewa wa kinadharia unapogeuka kuwa uwezo wa kudumu katika bidhaa, sera na uendeshaji.
Maamuzi ya usanifu huendesha utendaji na gharama ya uendeshaji kwa miaka. Wakati huo huo, Kuboresha kipimo kimoja kunaweza kuficha udhaifu mpana wa mfumo. Mbinu thabiti zaidi ni kuchanganya kasi ya majaribio na nidhamu ya utawala: kuendesha majaribio, kunasa ushahidi, kuchapisha kumbukumbu za maamuzi, na kuendelea kusasisha ulinzi huku tabia ya kielelezo, matarajio ya watumiaji na mahitaji ya udhibiti yanapobadilika.
Athari za kimkakati
Maamuzi ya usanifu huendesha utendaji na gharama ya uendeshaji kwa miaka.
Maamuzi ya usanifu huendesha utendaji na gharama ya uendeshaji kwa miaka. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.
Elimu ya kiufundi husaidia timu kuchagua safu sahihi, sio tu mpya zaidi.
Elimu ya kiufundi husaidia timu kuchagua safu sahihi, sio tu mpya zaidi. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.
Chaguo bora za uhandisi hupunguza matukio ya kuaminika katika uzalishaji.
Chaguo bora za uhandisi hupunguza matukio ya kuaminika katika uzalishaji. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.
Utekelezaji wa Ulimwengu Halisi
Inatumia muundo wa Llama wa kigezo cha bilioni 70 kwenye GPU moja ya mtumiaji ya GB 24 kwa kutumia uzani wa 4-bit GPTQ.
Miundo iliyopimwa kwa kiasi cha AWQ inayotolewa kwa kiwango cha juu katika vLLM kwa API za uzalishaji za gharama nafuu.
llama.cpp kwa kutumia uzani wa GGUF uliokaguliwa ili kuendesha miundo ya lugha ndani ya kompyuta ya kompyuta ya CPU.
Maktaba za AutoGPTQ za Hugging Face na AutoAWQ zinazowaruhusu wasanidi programu kukadiria muundo uliopakuliwa katika mistari michache ya msimbo.
Miundo ya Utekelezaji
GPTQ na AWQ Baada ya Mafunzo Quantization katika mazoezi
Inatumia muundo wa Llama wa kigezo cha bilioni 70 kwenye GPU moja ya mtumiaji ya GB 24 kwa kutumia uzani wa 4-bit GPTQ.
Kuendesha muundo wa Llama wa kigezo cha bilioni 70 kwenye GPU moja ya mtumiaji ya GB 24 kwa kutumia uzani wa GPTQ wa biti 4 kwa kawaida Timu hupata matokeo bora zaidi zinapofafanua viwango vya juu vya ubora mbele, kuweka njia ya kupanda juu ya matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.
GPTQ na AWQ Baada ya Mafunzo Quantization katika mazoezi
Miundo iliyopimwa kwa kiasi cha AWQ inayotolewa kwa kiwango cha juu katika vLLM kwa API za uzalishaji za gharama nafuu.
Miundo iliyopimwa kwa kiasi cha AWQ inayotolewa kwa matokeo ya juu katika vLLM kwa API za uzalishaji wa gharama nafuu Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.
GPTQ na AWQ Baada ya Mafunzo Quantization katika mazoezi
llama.cpp kwa kutumia uzani wa GGUF uliokaguliwa ili kuendesha miundo ya lugha ndani ya kompyuta ya kompyuta ya CPU.
llama.cpp kwa kutumia vipimo vilivyokamilishwa vya GGUF ili kuendesha miundo ya lugha ndani ya kompyuta ya mkononi kwa kawaida Timu za CPU hupata matokeo bora zaidi zinapofafanua viwango vya ubora wa juu, kuweka njia ya kupanda juu ya hali ya juu ya binadamu, na kufuatilia faida za tija na gharama za hitilafu kwa wakati.
GPTQ na AWQ Baada ya Mafunzo Quantization katika mazoezi
Maktaba za AutoGPTQ za Hugging Face na AutoAWQ zinazowaruhusu wasanidi programu kukadiria muundo uliopakuliwa katika mistari michache ya msimbo.
Maktaba za AutoGPTQ za Hugging Face na AutoAWQ zinazowaruhusu wasanidi programu kukadiria muundo uliopakuliwa katika safu chache za misimbo Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua vizingiti vya ubora mbele, kuweka njia ya kupanda juu ya matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.
Hatari & Walinzi
Kuboresha kiwango kimoja kunaweza kuficha udhaifu mkubwa wa mfumo.
Gharama za miundombinu na matengenezo mara nyingi hupunguzwa.
Mapengo ya usalama na uonekanaji yanaweza kukua kadiri mifumo inavyozidi kuwa ngumu.
Ramani ya Utekelezaji
Bainisha muda, ubora na malengo ya gharama kabla ya utekelezaji.
Bainisha muda, ubora na malengo ya gharama kabla ya utekelezaji. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.
Benchmark chini ya mzigo halisi na hali ya data.
Benchmark chini ya mzigo halisi na hali ya data. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.
Ufuatiliaji wa ala kwa makosa, kuteleza, na athari za mtumiaji.
Ufuatiliaji wa ala kwa makosa, kuteleza, na athari za mtumiaji. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.
Tayarisha njia za urejeshaji na majibu ya matukio kabla ya kuongeza ukubwa.
Tayarisha njia za urejeshaji na majibu ya matukio kabla ya kuongeza ukubwa. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.