የቴክኒክ መመሪያ

የቡድን አንጻራዊ ፖሊሲ ማመቻቸት

የቡድን አንጻራዊ ፖሊሲ ማበልጸጊያ (ጂአርፒኦ) የቋንቋ ሞዴሎችን ለማስተካከል የማጠናከሪያ-መማሪያ ዘዴ ሲሆን እያንዳንዱን መልስ በቡድን ወንድም እህት ለተመሳሳይ ጥያቄ መልስ ይሰጣል፣ ይህም PPO የሚጠቀምበትን የተለየ የእሴት አውታረ መረብ ያስወግዳል።

አጠቃላይ እይታ

የቡድን አንጻራዊ ፖሊሲ ማበልጸጊያ (ጂአርፒኦ) የቋንቋ ሞዴሎችን ለማስተካከል የማጠናከሪያ-መማሪያ ዘዴ ሲሆን እያንዳንዱን መልስ በቡድን ወንድም እህት ለተመሳሳይ ጥያቄ መልስ ይሰጣል፣ ይህም PPO የሚጠቀምበትን የተለየ የእሴት አውታረ መረብ ያስወግዳል። ከ DeepSeek የማመዛዘን ሞዴሎች በስተጀርባ እንደ ዋናው የስልጠና ዘዴ ዝነኛ ሆነ።

የቡድን አንጻራዊ ፖሊሲ ማሻሻል የሞዴል ጥራትን፣ የመሠረተ ልማት ወጪን፣ መዘግየትን እና አስተማማኝነትን የሚነካ ቴክኒካል ግንባታ ነው።

ጥልቅ ዳይቭ

GRPO ትላልቅ የቋንቋ ሞዴሎችን RL ጥሩ ማስተካከያ ርካሽ እና የበለጠ የተረጋጋ ለማድረግ የተነደፈ የፖሊሲ-ግራዲየንት የማጠናከሪያ ትምህርት ልዩነት ነው። እያንዳንዱ ማስመሰያ ምን ያህል ጥሩ እንደሆነ ለመገመት መደበኛ PPO የተማረ 'ሃያሲ' (የእሴት ሞዴል) ይፈልጋል። GRPO ያንን ተቺ ሙሉ በሙሉ ያስወግዳል። ለእያንዳንዱ ጥያቄ የማጠናቀቂያ ቡድኖችን ናሙና (8-64 ይበሉ)፣ ሁሉንም በሽልማት ምልክት ያስመዘግባል፣ እና በመቀጠል ሽልማቱን ከቡድኑ አማካኝ እና መደበኛ መዛባት ጋር በማስተካከል የእያንዳንዱን ማጠናቀቂያ ጥቅም ያሰላል። ከአማካይ በላይ መልሶች የተጠናከሩ እና ከአማካይ በታች ያሉት የታፈኑ ናቸው። የKL-ልዩነት ቃል ሞዴሉን ከማጣቀሻ ፖሊሲ ጋር ያቆየዋል። በ DeepSeek አስተዋውቋል፣ DeepSeekMath እና DeepSeek-R1 የማመዛዘን ሞዴሎችን አንቀሳቅሷል።

ቴክኒካዊ ግንዛቤ

ዋናው ሃሳብ የ PPO የተማረውን እሴት መነሻ መስመር በሞንቴ ካርሎ የቡድን መነሻ መስመር መተካት ነው። ሽልማቶች r_i ላለባቸው የውጤቶች ቡድን እያንዳንዱ ጥቅም A_i = (r_i - አማካኝ(r)) / std (r) ነው። ያ መደበኛ ውጤት ልክ እንደ PPO እና የ KL ቅጣት የተቀነጨበውን የይሁንታ ሬሾን ያበዛል እና በቀዘቀዘ የማጣቀሻ ሞዴል ላይ የKL ቅጣት ተንሳፋፊን ይገድባል። አንድም ተቺ ስላልሰለጠነ፣ የማስታወስ ችሎታ እና በግምት በግማሽ ያህል ያሰላል፣ እና ፈጣን መደበኛነት በተፈጥሮ የተመጣጠነ ዝቅተኛ-ልዩነት ጥቅሞችን ይሰጣል።

ማስተር ቡድን አንጻራዊ ፖሊሲ ማመቻቸት

የቡድን አንጻራዊ ፖሊሲ ማበልጸጊያ (ጂአርፒኦ) የቋንቋ ሞዴሎችን ለማስተካከል የማጠናከሪያ-መማሪያ ዘዴ ሲሆን እያንዳንዱን መልስ በቡድን ወንድም እህት ለተመሳሳይ ጥያቄ መልስ ይሰጣል፣ ይህም PPO የሚጠቀምበትን የተለየ የእሴት አውታረ መረብ ያስወግዳል። ከ DeepSeek የማመዛዘን ሞዴሎች በስተጀርባ እንደ ዋናው የስልጠና ዘዴ ዝነኛ ሆነ። የቡድን አንጻራዊ ፖሊሲ ማሻሻል የሞዴል ጥራትን፣ የመሠረተ ልማት ወጪን፣ መዘግየትን እና አስተማማኝነትን የሚነካ ቴክኒካል ግንባታ ነው። ጥልቅ ግንዛቤን ለመገንባት የቡድን አንጻራዊ ፖሊሲ ማመቻቸትን እንደ ኦፕሬሽን ሞዴል እንጂ አንድ ባህሪ አይደለም፡ የሚፈለጉትን ውጤቶች ይግለጹ፣ ግምቶችን ያብራሩ እና ስርዓቱ አሁንም የባለሙያዎችን ፍርድ ከሚያስፈልገው ነገር ለይ።

በተግባር፣ የቡድን አንጻራዊ ፖሊሲ ማመቻቸትን የሚጠቀሙ ጠንካራ ቡድኖች አርክቴክቸርን፣ መረጃን እና የመሰረተ ልማት ምርጫዎችን ከአስተማማኝነት እና ከወጪ ጋር ያሻሽላሉ። ግልጽ የስኬት መስፈርቶችን ይመዘግባሉ፣ በተጨባጭ መረጃ እና የስራ ፍሰቶች ላይ ይፈትሻሉ፣ እና የአንድ ጊዜ ቤንችማርክ ከማሸነፍ ይልቅ በተስተዋሉ የውድቀት ቅጦች ላይ ተመስርተው ይደግማሉ። ይህ የንድፈ ሃሳባዊ ግንዛቤ በምርት፣ ፖሊሲ እና ኦፕሬሽኖች ላይ ወደ ዘላቂ አቅም የሚቀየርበት ነው።

የስነ-ህንፃ ውሳኔዎች ለዓመታት አፈጻጸምን እና የሥራ ማስኬጃ ወጪዎችን ያንቀሳቅሳሉ. በተመሳሳይ ጊዜ፣ አንድ ቤንችማርክን ማሻሻል ሰፋ ያሉ የስርዓት ድክመቶችን መደበቅ ይችላል። በጣም ጠንካራው አካሄድ የሙከራ ፍጥነትን ከአስተዳደር ዲሲፕሊን ጋር ማጣመር ነው፡ አብራሪዎችን ማስኬድ፣ ማስረጃን መያዝ፣ የውሳኔ ምዝግብ ማስታወሻዎችን ማተም እና የሞዴል ባህሪ፣ የተጠቃሚ የሚጠበቁ እና የቁጥጥር መስፈርቶች ሲዳብሩ ጥበቃዎችን ያለማቋረጥ ማዘመን ነው።

ስልታዊ ተጽእኖ

የስነ-ህንፃ ውሳኔዎች ለዓመታት አፈጻጸምን እና የሥራ ማስኬጃ ወጪዎችን ያንቀሳቅሳሉ.

የስነ-ህንፃ ውሳኔዎች ለዓመታት አፈጻጸምን እና የሥራ ማስኬጃ ወጪዎችን ያንቀሳቅሳሉ. ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የቴክኒክ ትምህርት ቡድኖች አዲሱን ብቻ ሳይሆን ትክክለኛውን ቁልል እንዲመርጡ ይረዳል።

የቴክኒክ ትምህርት ቡድኖች አዲሱን ብቻ ሳይሆን ትክክለኛውን ቁልል እንዲመርጡ ይረዳል። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የተሻሉ የምህንድስና ምርጫዎች በምርት ውስጥ አስተማማኝነት ክስተቶችን ይቀንሳሉ.

የተሻሉ የምህንድስና ምርጫዎች በምርት ውስጥ አስተማማኝነት ክስተቶችን ይቀንሳሉ. ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የቡድን አንጻራዊ ፖሊሲ ማመቻቸት የወደፊት ዕጣ

GRPO ፈጣን የማመዛዘን ሞዴሎችን ለማሰልጠን ነባሪ የምግብ አዘገጃጀት መመሪያ ሆኗል፣ እና ቤተ-ሙከራዎች ደካማ ቦታዎች ላይ እየደጋገሙ ነው። ተመራማሪዎች የርዝመት እና የችግር አድልዎ (እንደ ዶ/ር ጂአርፒኦ ያሉ)፣ የማስመሰያ ደረጃ ከቅደም ተከተል ደረጃ መደበኛነት ይልቅ፣ እና የKL ቃልን በማስወገድ ወይም በመቅረጽ ላይ ናቸው። ሊረጋገጡ ከሚችሉ ሽልማቶች (ሂሳብ፣ ኮድ፣ የመሳሪያ አጠቃቀም)፣ በጥቃቅን ምልክቶች በተሻለ አያያዝ እና የቡድን መነሻ መስመሮችን ከቀላል ተቺዎች ጋር ለተወካዩ፣ ባለብዙ ደረጃ ስራዎች የሚያዋህዱ ውህደቶችን ይጠብቁ።

የእውነተኛ-ዓለም አተገባበር

በሂሳብ ችግሮች ላይ ህግን መሰረት ያደረጉ የትክክለኛ ሽልማቶችን በመጠቀም ረጅም የአስተሳሰብ ሰንሰለትን ለማምረት DeepSeek-R1 እና DeepSeekMath ማሰልጠን

ጥሩ ማስተካከያ ኮድ-ትውልድ ሞዴሎች እያንዳንዱ የናሙና መፍትሄ የዩኒት ፈተናዎችን በማለፉ የሚቆጠርበት እና ቡድኑ አሸናፊዎችን ለመምረጥ የተለመደ ነው።

የክፍት ምንጭ RLHF ቧንቧዎችን (ለምሳሌ በTRL እና verl ቤተ-መጽሐፍት ውስጥ) GRPOን በመጠቀም የውይይት ሞዴሎችን ለተለየ የእሴት አውታር ሳይከፍሉ ለማስማማት

በአንድ ጊዜ ብዙ ምላሾችን በማንሳት እና የሽልማት ሞዴል ዋጋ ያላቸውን ከእኩዮቻቸው አንፃር ከፍተኛ ዋጋ በመስጠት የትምህርት-መከተል ወይም የደህንነት ባህሪን ማሻሻል

የትግበራ ቅጦች

የቡድን አንጻራዊ ፖሊሲ ማመቻቸት በተግባር

DeepSeek-R1 እና DeepSeekMath በሂሳብ ችግሮች ላይ ህግን መሰረት ያደረጉ የትክክለኛነት ሽልማቶችን በመጠቀም ረጅም የሃሳብ ሰንሰለትን ለማምረት ማሰልጠን።

DeepSeek-R1 እና DeepSeekMath በማሰልጠን በሂሳብ ችግሮች ላይ ህግን መሰረት ያደረጉ የትክክለኛነት ሽልማቶችን በመጠቀም ረጅም የአስተሳሰብ ሰንሰለትን ለማምረት ቡድኖች አብዛኛውን ጊዜ የጥራት ደረጃዎችን ከፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰው ልጅ መስፋፋት መንገድን ይጠብቃሉ፣ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

የቡድን አንጻራዊ ፖሊሲ ማመቻቸት በተግባር

ጥሩ ማስተካከያ ኮድ-ትውልድ ሞዴሎች እያንዳንዱ የናሙና መፍትሄ የዩኒት ፈተናዎችን በማለፉ እና ቡድኑ አሸናፊዎችን ለመምረጥ የተለመደ ነው።

ጥሩ ማስተካከያ ኮድ-ትውልድ ሞዴሎች እያንዳንዱ የናሙና መፍትሄ የክፍል ፈተናዎችን በማለፉ ውጤት ያስመዘገበ ሲሆን ቡድኑ አሸናፊዎችን ለመምረጥ የተለመደ ነው ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ ፣ ለጫፍ ጉዳዮች የሰውን እድገት መንገድ ያቆዩ ፣ እና ሁለቱንም የምርታማነት ግኝቶችን እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

የቡድን አንጻራዊ ፖሊሲ ማመቻቸት በተግባር

የክፍት ምንጭ RLHF ቧንቧዎችን (ለምሳሌ፣ በTRL እና verl ቤተ-መጽሐፍት ውስጥ) GRPO በመጠቀም የውይይት ሞዴሎችን ለተለየ የእሴት አውታር ሳይከፍሉ ለማስተካከል።

ክፍት ምንጭ RLHF የቧንቧ መስመሮች (ለምሳሌ በTRL እና verl ቤተ-መጻሕፍት ውስጥ) GRPOን በመጠቀም የውይይት ሞዴሎችን ለተለየ ዋጋ አውታር ሳይከፍሉ ለማጣጣም ቡድኖች አብዛኛውን ጊዜ የጥራት ደረጃዎችን ከፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰው ልጅ መስፋፋት መንገድን ይጠብቁ እና ሁለቱንም የምርታማነት ግኝቶችን እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

የቡድን አንጻራዊ ፖሊሲ ማመቻቸት በተግባር

በአንድ ጊዜ ብዙ ምላሾችን በማንሳት እና የሽልማት ሞዴል ከእኩዮቻቸው አንጻር ከፍተኛ ደረጃ ያላቸውን በመሸለም መመሪያን መከተል ወይም የደህንነት ባህሪን ማሻሻል።

በአንድ ጊዜ ብዙ ምላሾችን በማንሳት እና የሽልማት ሞዴል ዋጋዎችን ከእኩዮቻቸው ጋር በማነፃፀር የመመሪያን ወይም የደህንነት ባህሪን ማሻሻል ቡድኖቹ ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻሉ ውጤቶችን ያገኛሉ ፣ ለጫፍ ጉዳዮች የሰውን እድገት መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ግኝቶችን እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

አደጋዎች እና የጥበቃ መንገዶች

!

አንድ ቤንችማርክን ማሳደግ ሰፋ ያሉ የስርዓት ድክመቶችን ሊደብቅ ይችላል።

!

የመሠረተ ልማት እና የጥገና ወጪዎች ብዙ ጊዜ ዝቅተኛ ናቸው.

!

ስርዓቶች ይበልጥ ውስብስብ ሲሆኑ የደህንነት እና የታዛቢነት ክፍተቶች ሊያድጉ ይችላሉ።

የትግበራ ፍኖተ ካርታ

1

ከመተግበሩ በፊት የቆይታ፣ የጥራት እና የወጪ ግቦችን ይግለጹ።

ከመተግበሩ በፊት የቆይታ፣ የጥራት እና የወጪ ግቦችን ይግለጹ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

2

ቤንችማርክ በእውነተኛ ጭነት እና የውሂብ ሁኔታዎች።

ቤንችማርክ በእውነተኛ ጭነት እና የውሂብ ሁኔታዎች። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

3

ለስህተቶች፣ ተንሸራታች እና የተጠቃሚ ተጽእኖ የመሳሪያ ክትትል።

ለስህተቶች፣ ተንሸራታች እና የተጠቃሚ ተጽእኖ የመሳሪያ ክትትል። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

4

ከመጠኑ በፊት የመመለሻ እና የአደጋ ምላሽ መንገዶችን ያዘጋጁ።

ከመጠኑ በፊት የመመለሻ እና የአደጋ ምላሽ መንገዶችን ያዘጋጁ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

ማሰስዎን ይቀጥሉ