คู่มือพื้นฐาน

การฝึกอบรมเพื่อประสิทธิภาพการประมวลผลของ Chinchilla

Chinchilla เป็นข้อมูลจาก DeepMind ในปี 2022 ที่พบว่าโมเดลภาษาขนาดใหญ่ส่วนใหญ่ได้รับการฝึกอบรมที่ไม่ดีนัก สำหรับงบประมาณการประมวลผลคงที่ คุณควรปรับขนาดพารามิเตอร์และข้อมูลโดยประมาณเท่าๆ กัน ไม่ใช่แค่สร้างโมเดลที่ใหญ่ขึ้นเท่านั้น

ภาพรวม

Chinchilla เป็นข้อมูลจาก DeepMind ในปี 2022 ที่พบว่าโมเดลภาษาขนาดใหญ่ส่วนใหญ่ได้รับการฝึกอบรมที่ไม่ดีนัก สำหรับงบประมาณการประมวลผลคงที่ คุณควรปรับขนาดพารามิเตอร์และข้อมูลโดยประมาณเท่าๆ กัน ไม่ใช่แค่สร้างโมเดลที่ใหญ่ขึ้นเท่านั้น โดยปรับโฉมวิธีที่อุตสาหกรรมปรับสมดุลขนาดโมเดลกับข้อมูลการฝึก

Chinchilla Compute-Optimal Training อยู่ในชุดเครื่องมือ AI หลัก เมื่อคุณเข้าใจ หัวข้อ AI อื่นๆ จะประเมินและเปรียบเทียบได้ง่ายขึ้น

เจาะลึก

เอกสาร Chinchilla ของ DeepMind มาเยือนการปรับขนาดอีกครั้งและฝึกอบรมโมเดลมากกว่า 400 โมเดลเพื่อค้นหาสมดุลในการประมวลผลที่เหมาะสมที่สุด กฎทั่วไป: ขนาดโมเดลและโทเค็นการฝึกควรเพิ่มขึ้นแบบล็อกสเต็ป ประมาณ 20 โทเค็นการฝึกต่อพารามิเตอร์ เพื่อพิสูจน์สิ่งนี้ พวกเขาได้ฝึก Chinchilla ซึ่งเป็นโมเดลพารามิเตอร์ 70 พันล้านบนโทเค็น 1.4 ล้านล้าน โดยใช้การคำนวณเดียวกันกับที่ Gopher พารามิเตอร์ 280 พันล้านพารามิเตอร์ฝึกฝนด้วยโทเค็นน้อยกว่ามาก Chinchilla แม้จะเล็กกว่าถึงสี่เท่า แต่มีประสิทธิภาพเหนือกว่า Gopher, GPT-3 และยักษ์ใหญ่อื่นๆ ในเกือบทุกเกณฑ์มาตรฐาน บทเรียนพลิกกลับข้อสรุป OpenAI ก่อนหน้านี้ที่ให้ความสำคัญกับขนาดมากกว่าข้อมูล โดยแสดงให้เห็นว่ารุ่นเรือธงหลายรุ่นทิ้งประสิทธิภาพไว้บนโต๊ะเนื่องจากมีขนาดใหญ่เกินไปและขาดแคลนข้อมูลมากเกินไป

ข้อมูลเชิงลึกทางเทคนิค

การสูญเสียพอดีของชินชิลล่าเป็น L(N,D) = E + A·N^(-α) + B·D^(-β) โดยที่ α และ β ทั้งคู่อยู่ใกล้ 0.34 ซึ่งหมายความว่าพารามิเตอร์และข้อมูลมีส่วนสนับสนุนเกือบจะสมมาตร การปรับให้เหมาะสมที่สุดภายใต้ข้อจำกัดในการประมวลผลคงที่ (คำนวณ data 6·N·D สำหรับหม้อแปลงไฟฟ้า) ให้ผลลัพธ์ในการปรับสเกลที่เท่ากัน โมเดลที่เล็กกว่าและมีข้อมูลมากมายยังถูกกว่าเมื่อเรียกใช้แบบอนุมาน ดังนั้นข้อดีของโมเดลนี้จึงประกอบขึ้นในการปรับใช้ ไม่ใช่แค่การฝึกอบรมเท่านั้น

การเรียนรู้การฝึกอบรมที่เหมาะสมกับการประมวลผลของ Chinchilla

Chinchilla เป็นข้อมูลจาก DeepMind ในปี 2022 ที่พบว่าโมเดลภาษาขนาดใหญ่ส่วนใหญ่ได้รับการฝึกอบรมที่ไม่ดีนัก สำหรับงบประมาณการประมวลผลคงที่ คุณควรปรับขนาดพารามิเตอร์และข้อมูลโดยประมาณเท่าๆ กัน ไม่ใช่แค่สร้างโมเดลที่ใหญ่ขึ้นเท่านั้น โดยปรับโฉมวิธีที่อุตสาหกรรมปรับสมดุลขนาดโมเดลกับข้อมูลการฝึก Chinchilla Compute-Optimal Training อยู่ในชุดเครื่องมือ AI หลัก เมื่อคุณเข้าใจ หัวข้อ AI อื่นๆ จะประเมินและเปรียบเทียบได้ง่ายขึ้น เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Chinchilla Compute-Optimal Training เป็นรูปแบบการปฏิบัติงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Chinchilla Compute-Optimal Training จะสร้างโมเดลเชิงแนวคิดที่แข็งแกร่งก่อน จากนั้นจึงจับคู่โมเดลเหล่านั้นกับข้อจำกัดในการผลิตจริง โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้ ในเวลาเดียวกัน ทีมต่างๆ อาจใช้คำเดียวกันต่างกัน ดังนั้นควรกำหนดขอบเขตตั้งแต่เนิ่นๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

คุณสามารถถามคำถามการใช้งานที่ดีขึ้นก่อนที่จะใช้เงินหรือเวลา

คุณสามารถถามคำถามการใช้งานที่ดีขึ้นก่อนที่จะใช้เงินหรือเวลา ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมที่มีความเข้าใจร่วมกันจะตัดสินใจเกี่ยวกับผลิตภัณฑ์ นโยบาย และการเรียนรู้ได้ดีขึ้น

ทีมที่มีความเข้าใจร่วมกันจะตัดสินใจเกี่ยวกับผลิตภัณฑ์ นโยบาย และการเรียนรู้ได้ดีขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการฝึกอบรมที่เพิ่มประสิทธิภาพการประมวลผลของ Chinchilla

โมเดลสมัยใหม่อย่าง Llama 3 จงใจผลักดันอัตราส่วน 20 โทเค็นต่อพารามิเตอร์ของ Chinchilla อย่างมาก ฝึกฝนโมเดลขนาดเล็กด้วยโทเค็นหลายล้านล้านโทเค็นเพื่อทำให้การอนุมานมีราคาถูก และยอมรับการประมวลผลการฝึกที่ต่ำกว่ามาตรฐาน เมื่อข้อมูลที่ดีเริ่มหายากขึ้น ความสนใจก็เพิ่มขึ้นในยุคที่เกิดซ้ำ ข้อมูลสังเคราะห์ และการกรองคุณภาพ ชินชิลล่ายังคงเป็นจุดอ้างอิง แต่การเพิ่มประสิทธิภาพสูงสุดจะขึ้นอยู่กับต้นทุนการอนุมานตลอดอายุการใช้งาน ไม่ใช่แค่งบประมาณการฝึกอบรมเพียงครั้งเดียว

การใช้งานจริงในโลกแห่งความเป็นจริง

การเลือกฝึกโมเดล 7 พันล้านพารามิเตอร์บน 2 ล้านล้านโทเค็น แทนที่จะเป็นโมเดล 30 พันล้านด้วยข้อมูลน้อยเกินไปสำหรับงบประมาณเดียวกัน

การประมาณว่าโมเดล 10 พันล้านพารามิเตอร์ต้องการโทเค็นประมาณ 200 พันล้านโทเค็นเพื่อเข้าถึงจุดที่น่าสนใจในการคำนวณที่เหมาะสมที่สุด

การปรับใช้โมเดลที่มีขนาดเล็กลงเพื่อลดต้นทุนการอนุมานต่อการสืบค้น ขณะเดียวกันก็รักษาคุณภาพของคู่แข่งที่ใหญ่กว่า

การตรวจสอบโมเดลที่มีอยู่และสรุปว่าได้รับการฝึกอบรม จากนั้นจึงวางแผนการฝึกอบรมที่นานขึ้นแทนที่จะเพิ่มพารามิเตอร์

รูปแบบการดำเนินงาน

Chinchilla Compute-Optimal Training ในทางปฏิบัติ

การเลือกฝึกโมเดล 7 พันล้านพารามิเตอร์บน 2 ล้านล้านโทเค็น แทนที่จะเป็นโมเดล 30 พันล้านด้วยข้อมูลน้อยเกินไปสำหรับงบประมาณเดียวกัน

การเลือกฝึกฝนแบบจำลอง 7 พันล้านพารามิเตอร์บนโทเค็น 2 ล้านล้าน แทนที่จะเป็นแบบจำลอง 3 หมื่นล้านด้วยข้อมูลที่น้อยเกินไปสำหรับงบประมาณเดียวกัน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Chinchilla Compute-Optimal Training ในทางปฏิบัติ

การประมาณว่าโมเดล 10 พันล้านพารามิเตอร์ต้องการโทเค็นประมาณ 200 พันล้านโทเค็นเพื่อเข้าถึงจุดที่น่าสนใจในการคำนวณที่เหมาะสมที่สุด

การประมาณว่าโมเดล 10 พันล้านพารามิเตอร์ต้องการโทเค็นประมาณ 200 พันล้านโทเค็นเพื่อเข้าถึงจุดที่น่าสนใจในการคำนวณที่เหมาะสมที่สุด ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Chinchilla Compute-Optimal Training ในทางปฏิบัติ

การปรับใช้โมเดลที่มีขนาดเล็กลงเพื่อลดต้นทุนการอนุมานต่อการสืบค้น ขณะเดียวกันก็รักษาคุณภาพของคู่แข่งที่ใหญ่กว่า

การปรับใช้โมเดลที่มีขนาดเล็กลงเพื่อลดค่าใช้จ่ายในการอนุมานต่อการสืบค้นในขณะที่จับคู่คุณภาพของคู่แข่งที่ใหญ่กว่า ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Chinchilla Compute-Optimal Training ในทางปฏิบัติ

การตรวจสอบโมเดลที่มีอยู่และสรุปว่าได้รับการฝึกอบรม จากนั้นจึงวางแผนการฝึกอบรมที่นานขึ้นแทนที่จะเพิ่มพารามิเตอร์

การตรวจสอบโมเดลที่มีอยู่และสรุปว่าไม่ได้รับการฝึกอบรม จากนั้นวางแผนการดำเนินการฝึกอบรมที่ยาวนานขึ้นแทนการเพิ่มพารามิเตอร์ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

แต่ละทีมอาจใช้คำเดียวกันต่างกัน ดังนั้นควรกำหนดขอบเขตตั้งแต่เนิ่นๆ

!

เกณฑ์มาตรฐานอาจดูแข็งแกร่งในขณะที่ประสิทธิภาพในโลกแห่งความเป็นจริงไม่เท่ากัน

!

การเพิกเฉยต่อคุณภาพข้อมูลและแผนการประเมินมักสร้างผลลัพธ์ที่เปราะบาง

แผนงานการดำเนินงาน

1

เริ่มต้นด้วยคำจำกัดความภาษาธรรมดาของผลลัพธ์ที่คุณต้องการ

เริ่มต้นด้วยคำจำกัดความภาษาธรรมดาของผลลัพธ์ที่คุณต้องการ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เลือกเมตริกวัดความสำเร็จหนึ่งรายการและเงื่อนไขความล้มเหลวหนึ่งรายการก่อนการทดสอบ

เลือกเมตริกวัดความสำเร็จหนึ่งรายการและเงื่อนไขความล้มเหลวหนึ่งรายการก่อนการทดสอบ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

ดำเนินการนำร่องขนาดเล็กด้วยข้อมูลตัวแทน ไม่ใช่ชุดสาธิตที่สวยงาม

ดำเนินการนำร่องขนาดเล็กด้วยข้อมูลตัวแทน ไม่ใช่ชุดสาธิตที่สวยงาม ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เอกสารที่ซึ่งการฝึกอบรมเพื่อเพิ่มประสิทธิภาพการประมวลผลของ Chinchilla ช่วยได้ และวิธีที่ง่ายกว่าจะดีกว่า

เอกสารที่ซึ่งการฝึกอบรมเพื่อเพิ่มประสิทธิภาพการประมวลผลของ Chinchilla ช่วยได้ และวิธีที่ง่ายกว่าจะดีกว่า ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป