การแบ่งกลุ่มรางวัลให้เป็นมาตรฐานในคู่มือ RLHF

ภาพรวม

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มจะสร้างมาตรฐานรางวัลของโมเดลภายในชุดของการตอบสนองต่อข้อความแจ้งเดียวกัน โดยเปลี่ยนคะแนนที่มีเสียงดังให้เป็นสัญญาณการฝึกที่เสถียร นี่คือเคล็ดลับหลักเบื้องหลัง GRPO ซึ่งเป็นอัลกอริธึมที่ขับเคลื่อนโมเดลการให้เหตุผลสมัยใหม่มากมาย

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF อยู่ในชุดเครื่องมือ AI หลัก เมื่อคุณเข้าใจ หัวข้อ AI อื่นๆ จะประเมินและเปรียบเทียบได้ง่ายขึ้น

เจาะลึก

ในการเรียนรู้แบบเสริมแรงจากผลตอบรับของมนุษย์ (RLHF) แบบจำลองจะสร้างการตอบสนองและแบบจำลองการให้รางวัลจะให้คะแนน แต่ผลตอบแทนดิบจะมีเสียงดังและแตกต่างกันอย่างมากตามคำแนะนำ การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มจะแก้ไขปัญหานี้โดยการสุ่มตัวอย่างกลุ่มของการตอบกลับหลายรายการในข้อความแจ้งเดียวกัน จากนั้นทำให้รางวัลแต่ละรายการเป็นมาตรฐานโดยการลบค่าเฉลี่ยของกลุ่มแล้วหารด้วยค่าเบี่ยงเบนมาตรฐานของกลุ่ม คะแนน z นี้จะกลายเป็นข้อได้เปรียบ แนวทางนี้เป็นศูนย์กลางของ Group Relative Policy Optimization (GRPO) ซึ่งแนะนำโดย DeepSeek ซึ่งมีชื่อเสียงในการขับเคลื่อนการใช้เหตุผลของ DeepSeek-R1 สิ่งสำคัญที่สุดคือ GRPO จะกำจัดเครือข่ายคุณค่าที่แยกจากกัน (นักวิจารณ์) ที่ใช้โดย PPO เนื่องจากค่าเฉลี่ยของกลุ่มทำหน้าที่เป็นเส้นฐาน ทำให้การฝึกง่ายขึ้น ถูกกว่า และมีประสิทธิภาพด้านหน่วยความจำมากขึ้น ขณะเดียวกันก็รักษาสัญญาณการไล่ระดับสีให้มีขนาดที่เหมาะสม

ข้อมูลเชิงลึกทางเทคนิค

สำหรับกลุ่มของเอาต์พุตที่มีรางวัล r_1...r_G ข้อดีคือ A_i = (r_i − mean(r)) / std(r) การตอบสนองที่ดีกว่าค่าเฉลี่ยของกลุ่มจะได้รับประโยชน์เชิงบวกและได้รับการเสริมกำลัง สิ่งที่แย่กว่าค่าเฉลี่ยจะถูกกดลง เนื่องจากการเปรียบเทียบมีความสัมพันธ์กันภายในการแจ้ง ระดับรางวัลสัมบูรณ์และความยากลำบากต่อการแจ้งเตือนจะถูกยกเลิก ช่วยลดความแปรปรวน GRPO เก็บวัตถุประสงค์ที่ถูกตัดของ PPO และการลงโทษ KL ไว้กับนโยบายอ้างอิงเพื่อป้องกันไม่ให้โมเดลลอยไปไกลเกินไป

การเรียนรู้การปรับรางวัลแบบกลุ่มให้เป็นมาตรฐานใน RLHF

หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Grouped Reward Normalization ใน RLHF เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Grouped Reward Normalization ใน RLHF จะสร้างโมเดลเชิงแนวคิดที่แข็งแกร่งก่อน จากนั้นจึงจับคู่โมเดลเหล่านั้นกับข้อจำกัดในการผลิตจริง โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้ ในเวลาเดียวกัน ทีมต่างๆ อาจใช้คำเดียวกันต่างกัน ดังนั้นควรกำหนดขอบเขตตั้งแต่เนิ่นๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

คุณสามารถถามคำถามการใช้งานที่ดีขึ้นก่อนที่จะใช้เงินหรือเวลา

คุณสามารถถามคำถามการใช้งานที่ดีขึ้นก่อนที่จะใช้เงินหรือเวลา ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมที่มีความเข้าใจร่วมกันจะตัดสินใจเกี่ยวกับผลิตภัณฑ์ นโยบาย และการเรียนรู้ได้ดีขึ้น

ทีมที่มีความเข้าใจร่วมกันจะตัดสินใจเกี่ยวกับผลิตภัณฑ์ นโยบาย และการเรียนรู้ได้ดีขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF

การทำให้เป็นมาตรฐานแบบกลุ่มกำลังกระตุ้นให้เกิดการเติบโตของโมเดลการใช้เหตุผล โดยที่โมเดลจะเรียนรู้จากรางวัลที่ตรวจสอบได้ เช่น คำตอบทางคณิตศาสตร์ที่ถูกต้องโดยไม่ต้องอาศัยผู้วิจารณ์ การวิจัยกำลังปรับปรุงให้ดีขึ้น: การถกเถียงว่าจะหารด้วยส่วนเบี่ยงเบนมาตรฐานหรือไม่ การจัดการกลุ่มที่ถูกทั้งหมดหรือผิดทั้งหมดที่สร้างข้อได้เปรียบเป็นศูนย์ และการขยายขนาดกลุ่ม คาดว่าวิธีการจัดกลุ่มและปราศจากคำวิจารณ์จะแพร่กระจายไปยังการใช้เครื่องมือเอเจนต์และการสร้างโค้ด โดยที่ตัวตรวจสอบอัตโนมัติจะส่งสัญญาณรางวัลราคาถูกและมากมาย

การใช้งานจริงในโลกแห่งความเป็นจริง

ฝึกอบรมแบบจำลองการใช้เหตุผลทางคณิตศาสตร์โดยการสุ่มตัวอย่างวิธีแก้ปัญหา 16 แบบต่อปัญหา และให้รางวัลแก่วิธีแก้ปัญหาที่สูงกว่าค่าเฉลี่ยของกลุ่ม

ปรับแต่งประโยชน์ของแชทบอทอย่างละเอียดโดยการปรับคะแนนโมเดลรางวัลให้เป็นมาตรฐานจากการตอบกลับของผู้สมัครหลายรายต่อการแจ้งเตือนของผู้ใช้แต่ละคน

การปรับปรุงผู้ช่วยเขียนโค้ดโดยให้คะแนนโซลูชันตัวอย่างแต่ละรายการโดยพิจารณาว่าผ่านการทดสอบหน่วยหรือไม่ จากนั้นจึงทำให้เป็นมาตรฐานภายในกลุ่ม

การลดหน่วยความจำ GPU ในไปป์ไลน์ RLHF โดยทิ้งเครือข่ายวิจารณ์ PPO และใช้ค่าเฉลี่ยกลุ่มเป็นข้อมูลพื้นฐานแทน

รูปแบบการดำเนินงาน

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF ในทางปฏิบัติ

ฝึกอบรมแบบจำลองการใช้เหตุผลทางคณิตศาสตร์โดยการสุ่มตัวอย่างวิธีแก้ปัญหา 16 แบบต่อปัญหา และให้รางวัลแก่วิธีแก้ปัญหาที่สูงกว่าค่าเฉลี่ยของกลุ่ม

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF ในทางปฏิบัติ

ปรับแต่งประโยชน์ของแชทบอทอย่างละเอียดโดยการปรับคะแนนโมเดลรางวัลให้เป็นมาตรฐานจากการตอบกลับของผู้สมัครหลายรายต่อการแจ้งเตือนของผู้ใช้แต่ละคน

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF ในทางปฏิบัติ

การปรับปรุงผู้ช่วยเขียนโค้ดโดยให้คะแนนโซลูชันตัวอย่างแต่ละรายการโดยพิจารณาว่าผ่านการทดสอบหน่วยหรือไม่ จากนั้นจึงทำให้เป็นมาตรฐานภายในกลุ่ม

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF ในทางปฏิบัติ

การลดหน่วยความจำ GPU ในไปป์ไลน์ RLHF โดยทิ้งเครือข่ายวิจารณ์ PPO และใช้ค่าเฉลี่ยกลุ่มเป็นข้อมูลพื้นฐานแทน

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

แต่ละทีมอาจใช้คำเดียวกันต่างกัน ดังนั้นควรกำหนดขอบเขตตั้งแต่เนิ่นๆ

!

เกณฑ์มาตรฐานอาจดูแข็งแกร่งในขณะที่ประสิทธิภาพในโลกแห่งความเป็นจริงไม่เท่ากัน

!

การเพิกเฉยต่อคุณภาพข้อมูลและแผนการประเมินมักสร้างผลลัพธ์ที่เปราะบาง

แผนงานการดำเนินงาน

1

เริ่มต้นด้วยคำจำกัดความภาษาธรรมดาของผลลัพธ์ที่คุณต้องการ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เลือกเมตริกวัดความสำเร็จหนึ่งรายการและเงื่อนไขความล้มเหลวหนึ่งรายการก่อนการทดสอบ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

ดำเนินการนำร่องขนาดเล็กด้วยข้อมูลตัวแทน ไม่ใช่ชุดสาธิตที่สวยงาม

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เอกสารที่การช่วยเหลือการทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF และวิธีที่ง่ายกว่าจะดีกว่า

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

เอไอคืออะไร?

รับแนวคิดที่สำคัญก่อนดำน้ำลึก

อ่านคู่มือ

AI เรียนรู้อย่างไร

เข้าใจกระบวนการฝึกอบรมเบื้องหลังระบบที่ทันสมัย

อ่านคู่มือ

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF

ภาพรวม

เจาะลึก

ข้อมูลเชิงลึกทางเทคนิค

การเรียนรู้การปรับรางวัลแบบกลุ่มให้เป็นมาตรฐานใน RLHF

ผลกระทบเชิงกลยุทธ์

อนาคตของการทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF

การใช้งานจริงในโลกแห่งความเป็นจริง

รูปแบบการดำเนินงาน

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF ในทางปฏิบัติ

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF ในทางปฏิบัติ

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF ในทางปฏิบัติ

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF ในทางปฏิบัติ

ความเสี่ยงและรั้ว

แผนงานการดำเนินงาน

สำรวจต่อไป

เอไอคืออะไร?

AI เรียนรู้อย่างไร

Related guides