Lugha AI MWONGOZO

Uboreshaji wa Uwiano wa Mapendeleo

Uboreshaji wa Mapendeleo ya Uwiano wa Odds (ORPO) ni mbinu ya kupanga vizuri inayofunza mtindo wa lugha tabia nzuri na mapendeleo ya binadamu katika pasi moja ya mafunzo.

Muhtasari

Uboreshaji wa Mapendeleo ya Uwiano wa Odds (ORPO) ni mbinu ya kupanga vizuri inayofunza mtindo wa lugha tabia nzuri na mapendeleo ya binadamu katika pasi moja ya mafunzo. Ni muhimu kwa sababu inaruka modeli tofauti ya kawaida ya zawadi na modeli ya marejeleo, na kufanya upatanishi kuwa nafuu na rahisi.

Uboreshaji wa Uwiano wa Odds ni sehemu ya mrundikano wa lugha-AI unaotumiwa kusoma, kutengeneza, kuainisha na kubadilisha maandishi na hotuba kwa kiwango.

Dive ya kina

ORPO, iliyoanzishwa na Hong, Lee, na Thorne mwaka wa 2024, inachanganya urekebishaji mzuri unaosimamiwa na upatanishi wa mapendeleo katika hatua moja. Mabomba mengi ya upangaji kwanza hufanya SFT kwenye mifano mizuri, kisha endesha njia ya pili kama RLHF au DPO ambayo inahitaji nakala iliyogandishwa ya modeli (rejeleo) pamoja na jozi za upendeleo zilizohifadhiwa. ORPO huondoa mtindo wa marejeleo kabisa. Upotevu wake huongeza muda wa adhabu kwa lengo la kawaida la ishara inayofuata: huongeza uwezekano wa mfano kwa jibu lililochaguliwa (lililopendekezwa) huku ukisukuma chini uwezekano wa lililokataliwa. Kwa sababu hutumia uwiano wa odds badala ya pengo kubwa la uwezekano wa logi, adhabu ni laini, kwa hivyo mtindo hujifunza kupendelea majibu mazuri bila kusahau kizazi fasaha.

Ufahamu wa Kiufundi

Hasara ya ORPO ni hasara ya mtambuka ya SFT pamoja na log-sigmoid yenye uzito ya uwiano wa odd kati ya majibu yaliyochaguliwa na kukataliwa. Tabia mbaya ni sawa na p/(1-p), kwa hivyo uwiano unalinganisha ni uwezekano gani zaidi wa mfano kupata jibu zuri dhidi ya mbaya. Kutumia odd badala ya uwezekano ghafi huweka utofautishaji kuwa mpole, ambao huzuia ukandamizaji kupita kiasi wa tokeni zilizokataliwa ambazo zinaweza kudhalilisha muundo ambao haujarejelewa.

Uboreshaji wa Uwiano wa Mastering Odds

Uboreshaji wa Mapendeleo ya Uwiano wa Odds (ORPO) ni mbinu ya kupanga vizuri inayofunza mtindo wa lugha tabia nzuri na mapendeleo ya binadamu katika pasi moja ya mafunzo. Ni muhimu kwa sababu inaruka modeli tofauti ya kawaida ya zawadi na modeli ya marejeleo, na kufanya upatanishi kuwa nafuu na rahisi. Uboreshaji wa Uwiano wa Odds ni sehemu ya mrundikano wa lugha-AI unaotumiwa kusoma, kutengeneza, kuainisha na kubadilisha maandishi na hotuba kwa kiwango. Ili kujenga uelewaji wa kina, chukulia Uboreshaji wa Uwiano wa Odds kama kielelezo cha uendeshaji, si kipengele kimoja: kufafanua matokeo yanayotarajiwa, kufafanua mawazo, na kutenganisha kile ambacho mfumo unaweza kufanya kwa uhakika na kile ambacho bado kinahitaji uamuzi wa kitaalamu.

Katika mazoezi, timu dhabiti zinazotumia uboreshaji wa Uwiano wa Upendeleo wa Odds vidokezo, kurejesha na kukagua vitanzi kama mfumo mmoja wa mawasiliano uliojumuishwa. Huandika vigezo dhahiri vya kufaulu, kujaribu dhidi ya data halisi na mtiririko wa kazi, na kurudia kulingana na mifumo ya kushindwa iliyoonekana badala ya ushindi wa mara moja wa benchmark. Hapa ndipo uelewa wa kinadharia unapogeuka kuwa uwezo wa kudumu katika bidhaa, sera na uendeshaji.

Mitiririko ya kazi ya lugha inaweza kusonga kwa kasi zaidi bila kuacha uthabiti. Wakati huo huo, mambo ya ukweli yanaweza kuingiza ripoti kwa utulivu, mtiririko wa usaidizi, au matokeo ya utafiti. Mbinu thabiti zaidi ni kuchanganya kasi ya majaribio na nidhamu ya utawala: kuendesha majaribio, kunasa ushahidi, kuchapisha kumbukumbu za maamuzi, na kuendelea kusasisha ulinzi huku tabia ya kielelezo, matarajio ya watumiaji na mahitaji ya udhibiti yanapobadilika.

Athari za kimkakati

Mitiririko ya kazi ya lugha inaweza kusonga kwa kasi zaidi bila kuacha uthabiti.

Mitiririko ya kazi ya lugha inaweza kusonga kwa kasi zaidi bila kuacha uthabiti. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Inapanua ufikiaji katika lugha na mitindo ya mawasiliano.

Inapanua ufikiaji katika lugha na mitindo ya mawasiliano. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Timu zinaweza kutumia muda mwingi kufanya uamuzi huku otomatiki ikishughulikia marudio.

Timu zinaweza kutumia muda mwingi kufanya uamuzi huku otomatiki ikishughulikia marudio. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Mustakabali wa Uboreshaji wa Uwiano wa Odds

ORPO inavutia kwa sababu inapunguza kumbukumbu na kukokotoa kwa kuacha muundo wa marejeleo, ambao unavutia timu kurekebisha maunzi machache. Tarajia kuonekana mara nyingi zaidi katika mapishi ya chanzo huria na kama chaguo-msingi katika maktaba kama vile Hugging Face TRL. Kazi ya siku zijazo ina uwezekano wa kurekebisha uzani wa lambda kiotomatiki, kuchanganya ORPO na malengo mengine yasiyo na marejeleo, na kuipanua hadi miundo mingi na mikubwa sana ambapo kuhifadhi nakala mbili kwenye kumbukumbu ni gharama kubwa.

Utekelezaji wa Ulimwengu Halisi

Kurekebisha muundo wa gumzo wa chanzo huria wa 7B kwenye jozi za mapendeleo bila kupakia nakala ya pili ya marejeleo, na kupunguza nusu ya kumbukumbu ya GPU.

Anzisho la kupanga msaidizi wa usaidizi kwa mteja ili kupendelea majibu ya heshima, ya sera katika mafunzo moja badala ya SFT-basi-DPO.

Watafiti wanaolinganisha ORPO dhidi ya DPO kwenye mkusanyiko wa data sawa ili kuonyesha upatanishi unaolingana na komputa ya chini

Kurekebisha muundo msingi kwa kikoa maalum (k.m., kuandika kisheria) ambapo jozi nzuri na mbaya za mifano zinapatikana lakini bajeti ya mfano wa zawadi haipo.

Miundo ya Utekelezaji

Uboreshaji wa Uwiano wa Mapendeleo kwa vitendo

Kurekebisha muundo wa gumzo la chanzo huria 7B kwenye jozi za mapendeleo bila kupakia nakala ya marejeleo ya pili, na kupunguza nusu ya kumbukumbu ya GPU.

Kurekebisha vizuri muundo wa gumzo wa chanzo huria wa 7B kwenye jozi za mapendeleo bila kupakia nakala ya pili ya marejeleo, kwa kupunguza nusu Timu za kumbukumbu za GPU kwa kawaida hupata matokeo bora zaidi zinapofafanua vizingiti vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

Uboreshaji wa Uwiano wa Mapendeleo kwa vitendo

Kuanzishwa kwa kupanga msaidizi wa usaidizi kwa mteja ili kupendelea majibu ya heshima, ya sera katika mafunzo moja badala ya SFT-basi-DPO.

Kuanzisha kwa kupanga msaidizi wa usaidizi kwa mteja ili kupendelea majibu ya adabu, ya sera katika uendeshaji mmoja wa mafunzo badala ya Timu za SFT-kisha-DPO kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya juu vya ubora mbele, kuweka njia ya kupanda juu ya matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

Uboreshaji wa Uwiano wa Mapendeleo kwa vitendo

Watafiti wanaolinganisha ORPO dhidi ya DPO kwenye mkusanyiko wa data sawa ili kuonyesha upatanishi unaolingana na komputa ya chini.

Watafiti wanaolinganisha ORPO dhidi ya DPO kwenye mkusanyiko wa data sawa ili kuonyesha upatanishi unaolinganishwa na Timu za komputa za chini kwa kawaida hupata matokeo bora zaidi wanapofafanua viwango vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida zote za tija na gharama za makosa kwa wakati.

Uboreshaji wa Uwiano wa Mapendeleo kwa vitendo

Kurekebisha muundo msingi kwa kikoa maalum (k.m., uandishi wa kisheria) ambapo jozi nzuri na mbaya za mifano zinapatikana lakini bajeti ya mfano wa zawadi haipo.

Kurekebisha muundo wa msingi kwa kikoa maalum (k.m., utayarishaji wa sheria) ambapo jozi za mifano mizuri na mibaya zinapatikana lakini bajeti ya muundo wa zawadi si Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua vizingiti vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa kesi kali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

Hatari & Walinzi

!

Mambo ya ukweli yanaweza kuingiza ripoti kwa utulivu, mitiririko ya usaidizi, au matokeo ya utafiti.

!

Usikivu wa haraka unaweza kuunda matokeo yasiyolingana katika maombi sawa.

!

Data nyeti ya maandishi inaweza kufichuliwa ikiwa vidhibiti vya ufikiaji ni dhaifu.

Ramani ya Utekelezaji

1

Bainisha umbizo la towe, toni na viwango vya ubora kabla ya kusambaza.

Bainisha umbizo la towe, toni na viwango vya ubora kabla ya kusambaza. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

2

Majibu ya msingi na vyanzo vinavyoaminika wakati wowote usahihi ni muhimu.

Majibu ya msingi na vyanzo vinavyoaminika wakati wowote usahihi ni muhimu. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

3

Weka ukaguzi wa ukaguzi wa kibinadamu kwa matokeo ya juu.

Weka ukaguzi wa ukaguzi wa kibinadamu kwa matokeo ya juu. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

4

Fuatilia mifumo ya kushindwa na fundisha tena vidokezo au mtiririko wa kazi mara kwa mara.

Fuatilia mifumo ya kushindwa na fundisha tena vidokezo au mtiririko wa kazi mara kwa mara. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

Endelea Kuchunguza