የቋንቋ AI መመሪያ

የዕድል መጠን ምርጫ ማመቻቸት

Odds Ratio Preference Optimization (ORPO) የቋንቋ ሞዴል መልካም ባህሪን እና የሰዎችን ምርጫ በአንድ የስልጠና ማለፊያ የሚያስተምር ጥሩ ማስተካከያ ዘዴ ነው።

አጠቃላይ እይታ

Odds Ratio Preference Optimization (ORPO) የቋንቋ ሞዴል መልካም ባህሪን እና የሰዎችን ምርጫ በአንድ የስልጠና ማለፊያ የሚያስተምር ጥሩ ማስተካከያ ዘዴ ነው። አስፈላጊ የሆነው የተለመደው የተለየ የሽልማት ሞዴል እና የማጣቀሻ ሞዴል በመዝለል አሰላለፍ ርካሽ እና ቀላል ያደርገዋል።

የዕድል ምጥጥን ምርጫ ማመቻቸት ጽሑፍን እና ንግግርን በመለኪያ ለማንበብ፣ ለማፍለቅ፣ ለመከፋፈል እና ለመለወጥ የሚያገለግል የቋንቋ-AI ቁልል አካል ነው።

ጥልቅ ዳይቭ

በ2024 በሆንግ፣ ሊ እና ቶርን ያስተዋወቀው ORPO፣ ክትትል የሚደረግበት ጥሩ ማስተካከያ እና ምርጫን ወደ አንድ እርምጃ ያጣምራል። አብዛኛዎቹ የአሰላለፍ ቧንቧዎች በመጀመሪያ ጥሩ ምሳሌዎች ላይ SFT ያደርጋሉ፣ በመቀጠል እንደ RLHF ወይም DPO ያለ ሁለተኛ ዘዴ ያሂዱ ይህም የሞዴሉ የቀዘቀዘ ቅጂ (ማጣቀሻ) እና የተከማቸ ምርጫ ጥንዶች። ORPO የማመሳከሪያውን ሞዴል ሙሉ በሙሉ ያስወግዳል. የእሱ መጥፋት ወደ መደበኛው ቀጣይ ማስመሰያ ዓላማ የቅጣት ቃልን ይጨምራል፡ ውድቅ የተደረገውን ዕድሎች እያሽቆለቆለ ሞዴሉ ለተመረጠው (ተመራጭ) ምላሽ የሚሰጠውን ዕድሎች ከፍ ያደርገዋል። ምክንያቱም ከጠንካራ የምዝግብ ማስታወሻ-ይቻላል ክፍተት ይልቅ የዕድል ሬሾን ስለሚጠቀም ቅጣቱ የዋህ ነው፣ ስለዚህ ሞዴሉ ጥሩ መልስ መስጠትን ይማራል፣ ያለአንዳች ብልህ ትውልድ ሳይረሳ።

ቴክኒካዊ ግንዛቤ

የORPO ኪሳራ የ SFT ተሻጋሪ-ኢንትሮፒ ኪሳራ እና በተመረጡት እና ውድቅ በሆኑ ምላሾች መካከል ያለው የሎግ odds ጥምርታ ክብደት ያለው ሎግ-ሲግሞይድ ነው። ዕድሉ እኩል p/(1-p)፣ ስለዚህ ሬሾው ሞዴሉ ምን ያህል ጥሩ መልስ እንደሚያገኝ ከመጥፎው ጋር ያወዳድራል። ከጥሬ እድል ፈንታ ዕድሎችን መጠቀም ንፅፅሩ ለስላሳ ያደርገዋል፣ ይህም ያልተጠቀሰ ሞዴልን ሊያዋርዱ የሚችሉ ውድቅ ምልክቶችን ከመጠን በላይ ማፈንን ይከላከላል።

የዕድል ምጥጥን ምርጫን ማመቻቸት

Odds Ratio Preference Optimization (ORPO) የቋንቋ ሞዴል መልካም ባህሪን እና የሰዎችን ምርጫ በአንድ የስልጠና ማለፊያ የሚያስተምር ጥሩ ማስተካከያ ዘዴ ነው። አስፈላጊ የሆነው የተለመደው የተለየ የሽልማት ሞዴል እና የማጣቀሻ ሞዴል በመዝለል አሰላለፍ ርካሽ እና ቀላል ያደርገዋል። የዕድል ምጥጥን ምርጫ ማመቻቸት ጽሑፍን እና ንግግርን በመለኪያ ለማንበብ፣ ለማፍለቅ፣ ለመከፋፈል እና ለመለወጥ የሚያገለግል የቋንቋ-AI ቁልል አካል ነው። ጥልቅ ግንዛቤን ለመገንባት፣ የዕድል ሬሾን ምርጫ ማሻሻልን እንደ ኦፕሬሽን ሞዴል ይያዙ፣ አንድ ባህሪ ሳይሆን፡ የተፈለገውን ውጤት ይግለጹ፣ ግምቶችን ያብራሩ፣ እና ስርዓቱ አሁንም የባለሙያዎችን ፍርድ ከሚያስፈልገው ነገር ለይ።

በተግባር፣ ጠንካራ ቡድኖች የኦዲድስ ሬሾ ምርጫን ማሻሻል የንድፍ ጥያቄዎችን፣ ሰርስሮ ማውጣት እና የግምገማ ቀለበቶችን እንደ አንድ የተቀናጀ የግንኙነት ስርዓት። ግልጽ የስኬት መስፈርቶችን ይመዘግባሉ፣ በተጨባጭ መረጃ እና የስራ ፍሰቶች ላይ ይፈትሻሉ፣ እና የአንድ ጊዜ ቤንችማርክ ከማሸነፍ ይልቅ በተስተዋሉ የውድቀት ቅጦች ላይ ተመስርተው ይደግማሉ። ይህ የንድፈ ሃሳባዊ ግንዛቤ በምርት፣ ፖሊሲ እና ኦፕሬሽኖች ላይ ወደ ዘላቂ አቅም የሚቀየርበት ነው።

የቋንቋ የስራ ፍሰቶች ወጥነትን ሳያጠፉ በፍጥነት ሊንቀሳቀሱ ይችላሉ። በተመሳሳይ ጊዜ፣ የተሳሳቱ እውነታዎች ሪፖርቶችን፣ የድጋፍ ፍሰቶችን ወይም የምርምር ውጤቶችን በጸጥታ ማስገባት ይችላሉ። በጣም ጠንካራው አካሄድ የሙከራ ፍጥነትን ከአስተዳደር ዲሲፕሊን ጋር ማጣመር ነው፡ አብራሪዎችን ማስኬድ፣ ማስረጃን መያዝ፣ የውሳኔ ምዝግብ ማስታወሻዎችን ማተም እና የሞዴል ባህሪ፣ የተጠቃሚ የሚጠበቁ እና የቁጥጥር መስፈርቶች ሲዳብሩ ጥበቃዎችን ያለማቋረጥ ማዘመን ነው።

ስልታዊ ተጽእኖ

የቋንቋ የስራ ፍሰቶች ወጥነትን ሳያጠፉ በፍጥነት ሊንቀሳቀሱ ይችላሉ።

የቋንቋ የስራ ፍሰቶች ወጥነትን ሳያጠፉ በፍጥነት ሊንቀሳቀሱ ይችላሉ። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

በሁሉም ቋንቋዎች እና የግንኙነት ዘይቤዎች ተደራሽነትን ያሰፋል።

በሁሉም ቋንቋዎች እና የግንኙነት ዘይቤዎች ተደራሽነትን ያሰፋል። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

አውቶሜሽን ድግግሞሹን ሲቆጣጠር ቡድኖች በፍርድ ላይ ብዙ ጊዜ ሊያጠፉ ይችላሉ።

አውቶሜሽን ድግግሞሹን ሲቆጣጠር ቡድኖች በፍርድ ላይ ብዙ ጊዜ ሊያጠፉ ይችላሉ። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የዕድል ውድር ምርጫ ማመቻቸት የወደፊት ዕጣ

ORPO የማስታወስ ችሎታን ስለሚቀንስ እና የማመሳከሪያ ሞዴሉን በመጣል ማስላት እየጨመረ ነው ፣ይህም በተወሰኑ ሃርድዌር ላይ ለቡድኖች ጥሩ ማስተካከያ ነው። በክፍት ምንጭ የምግብ አዘገጃጀቶች እና እንደ ነባሪ አማራጭ እንደ Hugging Face TRL ባሉ ቤተ-መጻህፍት ውስጥ በብዛት እንዲታይ ይጠብቁ። የወደፊቱ ስራ የላምዳ ክብደትን በራስ-ሰር ያስተካክላል፣ ORPOን ከሌሎች ማጣቀሻ-ነጻ አላማዎች ጋር ያዋህዳል እና ወደ መልቲሞዳል እና በጣም ትልቅ ሞዴሎች ሁለት ቅጂዎችን በማህደረ ትውስታ መያዝ ብዙ ወጪ የሚጠይቅ ይሆናል።

የእውነተኛ-ዓለም አተገባበር

ሁለተኛ የማመሳከሪያ ቅጂ ሳይጭኑ የክፍት ምንጭ 7B ቻት ሞዴልን በምርጫ ጥንዶች ማስተካከል፣ የጂፒዩ ማህደረ ትውስታን በግማሽ በመቀነስ

ከSFT-ከዚያ-DPO ይልቅ በአንድ የሥልጠና ሩጫ የደንበኛ ድጋፍ ሰጪን በትህትና፣ በፖሊሲ ላይ ያሉ መልሶችን እንዲመርጥ የሚያስማማ ጅምር።

ተመራማሪዎች ከዝቅተኛ ስሌት ጋር ተመጣጣኝ አሰላለፍ ለማሳየት በተመሳሳይ የውሂብ ስብስብ ላይ ORPOን ከ DPO ጋር ሲያወዳድሩ

ጥሩ እና መጥፎ ጥንዶች ባሉበት ነገር ግን የሽልማት-ሞዴል ባጀት ወደሌለበት ልዩ ጎራ (ለምሳሌ ህጋዊ ማርቀቅ) መሰረታዊ ሞዴልን ማላመድ

የትግበራ ቅጦች

የዕድል ውድር ምርጫ ማመቻቸት በተግባር

ሁለተኛ የማጣቀሻ ቅጂ ሳይጭኑ ክፍት ምንጭ 7B የውይይት ሞዴል በምርጫ ጥንዶች ላይ በጥሩ ሁኔታ ማስተካከል፣ የጂፒዩ ማህደረ ትውስታ በግማሽ ይቀንሳል።

የክፍት ምንጭ 7B ቻት ሞዴልን በምርጫ ጥንዶች ላይ ሁለተኛ ማጣቀሻ ቅጂ ሳይጭኑ ማስተካከል፣ የጂፒዩ ማህደረ ትውስታን በግማሽ መቀነስ ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰው ልጅ መስፋፋት መንገድን ይጠብቃሉ፣ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

የዕድል ውድር ምርጫ ማመቻቸት በተግባር

ከSFT-ከዚያ-DPO ይልቅ በአንድ የሥልጠና ሩጫ የደንበኛ ድጋፍ ሰጪን በትህትና፣ በፖሊሲ ላይ ያሉ መልሶችን እንዲመርጥ ጅምር።

ከኤስኤፍቲ-ከዚያም-DPO ቡድን ይልቅ በአንድ የሥልጠና ሂደት ውስጥ የደንበኛ ድጋፍ ሰጪን በትህትና፣በፖሊሲ ላይ የሚሰጡ መልሶችን እንዲመርጥ የሚያስተካክል ጅምር ቡድን ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ፣የሰው ልጅ መሻሻል መንገድን ለጫፍ ጉዳዮች ሲይዙ እና ሁለቱንም የምርታማነት ግኝቶችን እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

የዕድል ውድር ምርጫ ማመቻቸት በተግባር

ተመራማሪዎች ከዝቅተኛ ስሌት ጋር ተመጣጣኝ አሰላለፍ ለማሳየት በተመሳሳይ የውሂብ ስብስብ ላይ ORPOን ከ DPO ጋር ያወዳድራሉ።

ተመራማሪዎች ከዝቅተኛ ስሌት ቡድኖች ጋር ተመጣጣኝ አሰላለፍ ለማሳየት በተመሳሳይ ዳታ ስብስብ ላይ ORPOን ከ DPO ጋር ሲያወዳድሩ የተሻለ ውጤት ያገኛሉ ከፊት ለፊት የጥራት ደረጃዎችን ሲገልጹ፣ ለዳር ጉዳዮች የሰው ልጅ መሻሻል መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ግኝቶችን እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

የዕድል ውድር ምርጫ ማመቻቸት በተግባር

ጥሩ እና መጥፎ ምሳሌ ጥንዶች በሚገኙበት ነገር ግን የሽልማት-ሞዴል ባጀት ወደሌለበት ልዩ ጎራ (ለምሳሌ ህጋዊ ማርቀቅ) መሰረታዊ ሞዴልን ማላመድ።

የመሠረት ሞዴልን ወደ ልዩ ጎራ ማላመድ (ለምሳሌ ህጋዊ ማርቀቅ) ጥሩ እና መጥፎ ምሳሌ ጥንዶች በሚገኙበት ነገር ግን የሽልማት-ሞዴል በጀት አይደለም ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ከፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰው ልጅ እድገት መንገድን ይጠብቃሉ እና ሁለቱንም የምርታማነት ግኝቶችን እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

አደጋዎች እና የጥበቃ መንገዶች

!

የተሳሳቱ እውነታዎች በጸጥታ ወደ ሪፖርቶች፣ የድጋፍ ፍሰቶች ወይም የምርምር ውጤቶችን ማስገባት ይችላሉ።

!

ፈጣን ትብነት በተመሳሳይ ጥያቄዎች ላይ የማይጣጣሙ ውጤቶችን ሊፈጥር ይችላል።

!

የመዳረሻ መቆጣጠሪያዎች ደካማ ከሆኑ ሚስጥራዊነት ያለው የጽሑፍ ውሂብ ሊጋለጥ ይችላል።

የትግበራ ፍኖተ ካርታ

1

ከመልቀቅዎ በፊት የውጤት ቅርጸትን፣ ድምጽን እና የጥራት ደረጃዎችን ይግለጹ።

ከመልቀቅዎ በፊት የውጤት ቅርጸትን፣ ድምጽን እና የጥራት ደረጃዎችን ይግለጹ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

2

ትክክለኛነት አስፈላጊ በሚሆንበት ጊዜ ሁሉ ከታመኑ ምንጮች ጋር ምላሾች።

ትክክለኛነት አስፈላጊ በሚሆንበት ጊዜ ሁሉ ከታመኑ ምንጮች ጋር ምላሾች። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

3

ከፍተኛ ውጤት ለማግኘት የሰው የግምገማ ነጥብ አቆይ።

ከፍተኛ ውጤት ለማግኘት የሰው የግምገማ ነጥብ አቆይ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

4

የውድቀት ንድፎችን ይከታተሉ እና ጥያቄዎችን ወይም የስራ ፍሰቶችን በመደበኛነት ያሠለጥኑ።

የውድቀት ንድፎችን ይከታተሉ እና ጥያቄዎችን ወይም የስራ ፍሰቶችን በመደበኛነት ያሠለጥኑ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

ማሰስዎን ይቀጥሉ