คู่มือพื้นฐาน

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มจะสร้างมาตรฐานรางวัลของโมเดลภายในชุดของการตอบสนองต่อข้อความแจ้งเดียวกัน โดยเปลี่ยนคะแนนที่มีเสียงดังให้เป็นสัญญาณการฝึกที่เสถียร

ภาพรวม

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มจะสร้างมาตรฐานรางวัลของโมเดลภายในชุดของการตอบสนองต่อข้อความแจ้งเดียวกัน โดยเปลี่ยนคะแนนที่มีเสียงดังให้เป็นสัญญาณการฝึกที่เสถียร นี่คือเคล็ดลับหลักเบื้องหลัง GRPO ซึ่งเป็นอัลกอริธึมที่ขับเคลื่อนโมเดลการให้เหตุผลสมัยใหม่มากมาย

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF อยู่ในชุดเครื่องมือ AI หลัก เมื่อคุณเข้าใจ หัวข้อ AI อื่นๆ จะประเมินและเปรียบเทียบได้ง่ายขึ้น

เจาะลึก

ในการเรียนรู้แบบเสริมแรงจากผลตอบรับของมนุษย์ (RLHF) แบบจำลองจะสร้างการตอบสนองและแบบจำลองการให้รางวัลจะให้คะแนน แต่ผลตอบแทนดิบจะมีเสียงดังและแตกต่างกันอย่างมากตามคำแนะนำ การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มจะแก้ไขปัญหานี้โดยการสุ่มตัวอย่างกลุ่มของการตอบกลับหลายรายการในข้อความแจ้งเดียวกัน จากนั้นทำให้รางวัลแต่ละรายการเป็นมาตรฐานโดยการลบค่าเฉลี่ยของกลุ่มแล้วหารด้วยค่าเบี่ยงเบนมาตรฐานของกลุ่ม คะแนน z นี้จะกลายเป็นข้อได้เปรียบ แนวทางนี้เป็นศูนย์กลางของ Group Relative Policy Optimization (GRPO) ซึ่งแนะนำโดย DeepSeek ซึ่งมีชื่อเสียงในการขับเคลื่อนการใช้เหตุผลของ DeepSeek-R1 สิ่งสำคัญที่สุดคือ GRPO จะกำจัดเครือข่ายคุณค่าที่แยกจากกัน (นักวิจารณ์) ที่ใช้โดย PPO เนื่องจากค่าเฉลี่ยของกลุ่มทำหน้าที่เป็นเส้นฐาน ทำให้การฝึกง่ายขึ้น ถูกกว่า และมีประสิทธิภาพด้านหน่วยความจำมากขึ้น ขณะเดียวกันก็รักษาสัญญาณการไล่ระดับสีให้มีขนาดที่เหมาะสม

ข้อมูลเชิงลึกทางเทคนิค

สำหรับกลุ่มของเอาต์พุตที่มีรางวัล r_1...r_G ข้อดีคือ A_i = (r_i − mean(r)) / std(r) การตอบสนองที่ดีกว่าค่าเฉลี่ยของกลุ่มจะได้รับประโยชน์เชิงบวกและได้รับการเสริมกำลัง สิ่งที่แย่กว่าค่าเฉลี่ยจะถูกกดลง เนื่องจากการเปรียบเทียบมีความสัมพันธ์กันภายในการแจ้ง ระดับรางวัลสัมบูรณ์และความยากลำบากต่อการแจ้งเตือนจะถูกยกเลิก ช่วยลดความแปรปรวน GRPO เก็บวัตถุประสงค์ที่ถูกตัดของ PPO และการลงโทษ KL ไว้กับนโยบายอ้างอิงเพื่อป้องกันไม่ให้โมเดลลอยไปไกลเกินไป

การเรียนรู้การปรับรางวัลแบบกลุ่มให้เป็นมาตรฐานใน RLHF

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มจะสร้างมาตรฐานรางวัลของโมเดลภายในชุดของการตอบสนองต่อข้อความแจ้งเดียวกัน โดยเปลี่ยนคะแนนที่มีเสียงดังให้เป็นสัญญาณการฝึกที่เสถียร นี่คือเคล็ดลับหลักเบื้องหลัง GRPO ซึ่งเป็นอัลกอริธึมที่ขับเคลื่อนโมเดลการให้เหตุผลสมัยใหม่มากมาย การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF อยู่ในชุดเครื่องมือ AI หลัก เมื่อคุณเข้าใจ หัวข้อ AI อื่นๆ จะประเมินและเปรียบเทียบได้ง่ายขึ้น เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Grouped Reward Normalization ใน RLHF เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Grouped Reward Normalization ใน RLHF จะสร้างโมเดลเชิงแนวคิดที่แข็งแกร่งก่อน จากนั้นจึงจับคู่โมเดลเหล่านั้นกับข้อจำกัดในการผลิตจริง โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้ ในเวลาเดียวกัน ทีมต่างๆ อาจใช้คำเดียวกันต่างกัน ดังนั้นควรกำหนดขอบเขตตั้งแต่เนิ่นๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

คุณสามารถถามคำถามการใช้งานที่ดีขึ้นก่อนที่จะใช้เงินหรือเวลา

คุณสามารถถามคำถามการใช้งานที่ดีขึ้นก่อนที่จะใช้เงินหรือเวลา ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมที่มีความเข้าใจร่วมกันจะตัดสินใจเกี่ยวกับผลิตภัณฑ์ นโยบาย และการเรียนรู้ได้ดีขึ้น

ทีมที่มีความเข้าใจร่วมกันจะตัดสินใจเกี่ยวกับผลิตภัณฑ์ นโยบาย และการเรียนรู้ได้ดีขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF

การทำให้เป็นมาตรฐานแบบกลุ่มกำลังกระตุ้นให้เกิดการเติบโตของโมเดลการใช้เหตุผล โดยที่โมเดลจะเรียนรู้จากรางวัลที่ตรวจสอบได้ เช่น คำตอบทางคณิตศาสตร์ที่ถูกต้องโดยไม่ต้องอาศัยผู้วิจารณ์ การวิจัยกำลังปรับปรุงให้ดีขึ้น: การถกเถียงว่าจะหารด้วยส่วนเบี่ยงเบนมาตรฐานหรือไม่ การจัดการกลุ่มที่ถูกทั้งหมดหรือผิดทั้งหมดที่สร้างข้อได้เปรียบเป็นศูนย์ และการขยายขนาดกลุ่ม คาดว่าวิธีการจัดกลุ่มและปราศจากคำวิจารณ์จะแพร่กระจายไปยังการใช้เครื่องมือเอเจนต์และการสร้างโค้ด โดยที่ตัวตรวจสอบอัตโนมัติจะส่งสัญญาณรางวัลราคาถูกและมากมาย

การใช้งานจริงในโลกแห่งความเป็นจริง

ฝึกอบรมแบบจำลองการใช้เหตุผลทางคณิตศาสตร์โดยการสุ่มตัวอย่างวิธีแก้ปัญหา 16 แบบต่อปัญหา และให้รางวัลแก่วิธีแก้ปัญหาที่สูงกว่าค่าเฉลี่ยของกลุ่ม

ปรับแต่งประโยชน์ของแชทบอทอย่างละเอียดโดยการปรับคะแนนโมเดลรางวัลให้เป็นมาตรฐานจากการตอบกลับของผู้สมัครหลายรายต่อการแจ้งเตือนของผู้ใช้แต่ละคน

การปรับปรุงผู้ช่วยเขียนโค้ดโดยให้คะแนนโซลูชันตัวอย่างแต่ละรายการโดยพิจารณาว่าผ่านการทดสอบหน่วยหรือไม่ จากนั้นจึงทำให้เป็นมาตรฐานภายในกลุ่ม

การลดหน่วยความจำ GPU ในไปป์ไลน์ RLHF โดยทิ้งเครือข่ายวิจารณ์ PPO และใช้ค่าเฉลี่ยกลุ่มเป็นข้อมูลพื้นฐานแทน

รูปแบบการดำเนินงาน

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF ในทางปฏิบัติ

ฝึกอบรมแบบจำลองการใช้เหตุผลทางคณิตศาสตร์โดยการสุ่มตัวอย่างวิธีแก้ปัญหา 16 แบบต่อปัญหา และให้รางวัลแก่วิธีแก้ปัญหาที่สูงกว่าค่าเฉลี่ยของกลุ่ม

การฝึกอบรมแบบจำลองการใช้เหตุผลทางคณิตศาสตร์โดยการสุ่มตัวอย่างวิธีแก้ปัญหา 16 แบบต่อปัญหาและให้รางวัลแก่ผู้ที่อยู่เหนือความถูกต้องโดยเฉลี่ยของกลุ่ม ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF ในทางปฏิบัติ

ปรับแต่งประโยชน์ของแชทบอทอย่างละเอียดโดยการปรับคะแนนโมเดลรางวัลให้เป็นมาตรฐานจากการตอบกลับของผู้สมัครหลายรายต่อการแจ้งเตือนของผู้ใช้แต่ละคน

ปรับแต่งการช่วยเหลือของแชทบอทอย่างละเอียดโดยการปรับคะแนนโมเดลรางวัลให้เป็นมาตรฐานในการตอบกลับของผู้สมัครหลายรายสำหรับข้อความแจ้งของผู้ใช้แต่ละราย ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF ในทางปฏิบัติ

การปรับปรุงผู้ช่วยเขียนโค้ดโดยให้คะแนนโซลูชันตัวอย่างแต่ละรายการโดยพิจารณาว่าผ่านการทดสอบหน่วยหรือไม่ จากนั้นจึงทำให้เป็นมาตรฐานภายในกลุ่ม

การปรับปรุงผู้ช่วยเขียนโค้ดโดยให้คะแนนโซลูชันตัวอย่างแต่ละรายการโดยพิจารณาว่าผ่านการทดสอบหน่วยหรือไม่ จากนั้นทำให้เป็นมาตรฐานภายในกลุ่ม ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF ในทางปฏิบัติ

การลดหน่วยความจำ GPU ในไปป์ไลน์ RLHF โดยทิ้งเครือข่ายวิจารณ์ PPO และใช้ค่าเฉลี่ยกลุ่มเป็นข้อมูลพื้นฐานแทน

การลดหน่วยความจำ GPU ในไปป์ไลน์ RLHF โดยละทิ้งเครือข่ายวิจารณ์ PPO และใช้ค่าเฉลี่ยกลุ่มเป็นข้อมูลพื้นฐานแทน โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

แต่ละทีมอาจใช้คำเดียวกันต่างกัน ดังนั้นควรกำหนดขอบเขตตั้งแต่เนิ่นๆ

!

เกณฑ์มาตรฐานอาจดูแข็งแกร่งในขณะที่ประสิทธิภาพในโลกแห่งความเป็นจริงไม่เท่ากัน

!

การเพิกเฉยต่อคุณภาพข้อมูลและแผนการประเมินมักสร้างผลลัพธ์ที่เปราะบาง

แผนงานการดำเนินงาน

1

เริ่มต้นด้วยคำจำกัดความภาษาธรรมดาของผลลัพธ์ที่คุณต้องการ

เริ่มต้นด้วยคำจำกัดความภาษาธรรมดาของผลลัพธ์ที่คุณต้องการ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เลือกเมตริกวัดความสำเร็จหนึ่งรายการและเงื่อนไขความล้มเหลวหนึ่งรายการก่อนการทดสอบ

เลือกเมตริกวัดความสำเร็จหนึ่งรายการและเงื่อนไขความล้มเหลวหนึ่งรายการก่อนการทดสอบ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

ดำเนินการนำร่องขนาดเล็กด้วยข้อมูลตัวแทน ไม่ใช่ชุดสาธิตที่สวยงาม

ดำเนินการนำร่องขนาดเล็กด้วยข้อมูลตัวแทน ไม่ใช่ชุดสาธิตที่สวยงาม ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เอกสารที่การช่วยเหลือการทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF และวิธีที่ง่ายกว่าจะดีกว่า

เอกสารที่การช่วยเหลือการทำให้รางวัลเป็นมาตรฐานแบบกลุ่มใน RLHF และวิธีที่ง่ายกว่าจะดีกว่า ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป