ภาพรวม
Chinchilla เป็นข้อมูลจาก DeepMind ในปี 2022 ที่พบว่าโมเดลภาษาขนาดใหญ่ส่วนใหญ่ได้รับการฝึกอบรมที่ไม่ดีนัก สำหรับงบประมาณการประมวลผลคงที่ คุณควรปรับขนาดพารามิเตอร์และข้อมูลโดยประมาณเท่าๆ กัน ไม่ใช่แค่สร้างโมเดลที่ใหญ่ขึ้นเท่านั้น โดยปรับโฉมวิธีที่อุตสาหกรรมปรับสมดุลขนาดโมเดลกับข้อมูลการฝึก
Chinchilla Compute-Optimal Training อยู่ในชุดเครื่องมือ AI หลัก เมื่อคุณเข้าใจ หัวข้อ AI อื่นๆ จะประเมินและเปรียบเทียบได้ง่ายขึ้น
เจาะลึก
เอกสาร Chinchilla ของ DeepMind มาเยือนการปรับขนาดอีกครั้งและฝึกอบรมโมเดลมากกว่า 400 โมเดลเพื่อค้นหาสมดุลในการประมวลผลที่เหมาะสมที่สุด กฎทั่วไป: ขนาดโมเดลและโทเค็นการฝึกควรเพิ่มขึ้นแบบล็อกสเต็ป ประมาณ 20 โทเค็นการฝึกต่อพารามิเตอร์ เพื่อพิสูจน์สิ่งนี้ พวกเขาได้ฝึก Chinchilla ซึ่งเป็นโมเดลพารามิเตอร์ 70 พันล้านบนโทเค็น 1.4 ล้านล้าน โดยใช้การคำนวณเดียวกันกับที่ Gopher พารามิเตอร์ 280 พันล้านพารามิเตอร์ฝึกฝนด้วยโทเค็นน้อยกว่ามาก Chinchilla แม้จะเล็กกว่าถึงสี่เท่า แต่มีประสิทธิภาพเหนือกว่า Gopher, GPT-3 และยักษ์ใหญ่อื่นๆ ในเกือบทุกเกณฑ์มาตรฐาน บทเรียนพลิกกลับข้อสรุป OpenAI ก่อนหน้านี้ที่ให้ความสำคัญกับขนาดมากกว่าข้อมูล โดยแสดงให้เห็นว่ารุ่นเรือธงหลายรุ่นทิ้งประสิทธิภาพไว้บนโต๊ะเนื่องจากมีขนาดใหญ่เกินไปและขาดแคลนข้อมูลมากเกินไป
ข้อมูลเชิงลึกทางเทคนิค
การสูญเสียพอดีของชินชิลล่าเป็น L(N,D) = E + A·N^(-α) + B·D^(-β) โดยที่ α และ β ทั้งคู่อยู่ใกล้ 0.34 ซึ่งหมายความว่าพารามิเตอร์และข้อมูลมีส่วนสนับสนุนเกือบจะสมมาตร การปรับให้เหมาะสมที่สุดภายใต้ข้อจำกัดในการประมวลผลคงที่ (คำนวณ data 6·N·D สำหรับหม้อแปลงไฟฟ้า) ให้ผลลัพธ์ในการปรับสเกลที่เท่ากัน โมเดลที่เล็กกว่าและมีข้อมูลมากมายยังถูกกว่าเมื่อเรียกใช้แบบอนุมาน ดังนั้นข้อดีของโมเดลนี้จึงประกอบขึ้นในการปรับใช้ ไม่ใช่แค่การฝึกอบรมเท่านั้น
การเรียนรู้การฝึกอบรมที่เหมาะสมกับการประมวลผลของ Chinchilla
Chinchilla เป็นข้อมูลจาก DeepMind ในปี 2022 ที่พบว่าโมเดลภาษาขนาดใหญ่ส่วนใหญ่ได้รับการฝึกอบรมที่ไม่ดีนัก สำหรับงบประมาณการประมวลผลคงที่ คุณควรปรับขนาดพารามิเตอร์และข้อมูลโดยประมาณเท่าๆ กัน ไม่ใช่แค่สร้างโมเดลที่ใหญ่ขึ้นเท่านั้น โดยปรับโฉมวิธีที่อุตสาหกรรมปรับสมดุลขนาดโมเดลกับข้อมูลการฝึก Chinchilla Compute-Optimal Training อยู่ในชุดเครื่องมือ AI หลัก เมื่อคุณเข้าใจ หัวข้อ AI อื่นๆ จะประเมินและเปรียบเทียบได้ง่ายขึ้น เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Chinchilla Compute-Optimal Training เป็นรูปแบบการปฏิบัติงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ
ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Chinchilla Compute-Optimal Training จะสร้างโมเดลเชิงแนวคิดที่แข็งแกร่งก่อน จากนั้นจึงจับคู่โมเดลเหล่านั้นกับข้อจำกัดในการผลิตจริง โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน
ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้ ในเวลาเดียวกัน ทีมต่างๆ อาจใช้คำเดียวกันต่างกัน ดังนั้นควรกำหนดขอบเขตตั้งแต่เนิ่นๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง
ผลกระทบเชิงกลยุทธ์
ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้
ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
คุณสามารถถามคำถามการใช้งานที่ดีขึ้นก่อนที่จะใช้เงินหรือเวลา
คุณสามารถถามคำถามการใช้งานที่ดีขึ้นก่อนที่จะใช้เงินหรือเวลา ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
ทีมที่มีความเข้าใจร่วมกันจะตัดสินใจเกี่ยวกับผลิตภัณฑ์ นโยบาย และการเรียนรู้ได้ดีขึ้น
ทีมที่มีความเข้าใจร่วมกันจะตัดสินใจเกี่ยวกับผลิตภัณฑ์ นโยบาย และการเรียนรู้ได้ดีขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
การใช้งานจริงในโลกแห่งความเป็นจริง
การเลือกฝึกโมเดล 7 พันล้านพารามิเตอร์บน 2 ล้านล้านโทเค็น แทนที่จะเป็นโมเดล 30 พันล้านด้วยข้อมูลน้อยเกินไปสำหรับงบประมาณเดียวกัน
การประมาณว่าโมเดล 10 พันล้านพารามิเตอร์ต้องการโทเค็นประมาณ 200 พันล้านโทเค็นเพื่อเข้าถึงจุดที่น่าสนใจในการคำนวณที่เหมาะสมที่สุด
การปรับใช้โมเดลที่มีขนาดเล็กลงเพื่อลดต้นทุนการอนุมานต่อการสืบค้น ขณะเดียวกันก็รักษาคุณภาพของคู่แข่งที่ใหญ่กว่า
การตรวจสอบโมเดลที่มีอยู่และสรุปว่าได้รับการฝึกอบรม จากนั้นจึงวางแผนการฝึกอบรมที่นานขึ้นแทนที่จะเพิ่มพารามิเตอร์
รูปแบบการดำเนินงาน
Chinchilla Compute-Optimal Training ในทางปฏิบัติ
การเลือกฝึกโมเดล 7 พันล้านพารามิเตอร์บน 2 ล้านล้านโทเค็น แทนที่จะเป็นโมเดล 30 พันล้านด้วยข้อมูลน้อยเกินไปสำหรับงบประมาณเดียวกัน
การเลือกฝึกฝนแบบจำลอง 7 พันล้านพารามิเตอร์บนโทเค็น 2 ล้านล้าน แทนที่จะเป็นแบบจำลอง 3 หมื่นล้านด้วยข้อมูลที่น้อยเกินไปสำหรับงบประมาณเดียวกัน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
Chinchilla Compute-Optimal Training ในทางปฏิบัติ
การประมาณว่าโมเดล 10 พันล้านพารามิเตอร์ต้องการโทเค็นประมาณ 200 พันล้านโทเค็นเพื่อเข้าถึงจุดที่น่าสนใจในการคำนวณที่เหมาะสมที่สุด
การประมาณว่าโมเดล 10 พันล้านพารามิเตอร์ต้องการโทเค็นประมาณ 200 พันล้านโทเค็นเพื่อเข้าถึงจุดที่น่าสนใจในการคำนวณที่เหมาะสมที่สุด ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
Chinchilla Compute-Optimal Training ในทางปฏิบัติ
การปรับใช้โมเดลที่มีขนาดเล็กลงเพื่อลดต้นทุนการอนุมานต่อการสืบค้น ขณะเดียวกันก็รักษาคุณภาพของคู่แข่งที่ใหญ่กว่า
การปรับใช้โมเดลที่มีขนาดเล็กลงเพื่อลดค่าใช้จ่ายในการอนุมานต่อการสืบค้นในขณะที่จับคู่คุณภาพของคู่แข่งที่ใหญ่กว่า ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
Chinchilla Compute-Optimal Training ในทางปฏิบัติ
การตรวจสอบโมเดลที่มีอยู่และสรุปว่าได้รับการฝึกอบรม จากนั้นจึงวางแผนการฝึกอบรมที่นานขึ้นแทนที่จะเพิ่มพารามิเตอร์
การตรวจสอบโมเดลที่มีอยู่และสรุปว่าไม่ได้รับการฝึกอบรม จากนั้นวางแผนการดำเนินการฝึกอบรมที่ยาวนานขึ้นแทนการเพิ่มพารามิเตอร์ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
ความเสี่ยงและรั้ว
แต่ละทีมอาจใช้คำเดียวกันต่างกัน ดังนั้นควรกำหนดขอบเขตตั้งแต่เนิ่นๆ
เกณฑ์มาตรฐานอาจดูแข็งแกร่งในขณะที่ประสิทธิภาพในโลกแห่งความเป็นจริงไม่เท่ากัน
การเพิกเฉยต่อคุณภาพข้อมูลและแผนการประเมินมักสร้างผลลัพธ์ที่เปราะบาง
แผนงานการดำเนินงาน
เริ่มต้นด้วยคำจำกัดความภาษาธรรมดาของผลลัพธ์ที่คุณต้องการ
เริ่มต้นด้วยคำจำกัดความภาษาธรรมดาของผลลัพธ์ที่คุณต้องการ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
เลือกเมตริกวัดความสำเร็จหนึ่งรายการและเงื่อนไขความล้มเหลวหนึ่งรายการก่อนการทดสอบ
เลือกเมตริกวัดความสำเร็จหนึ่งรายการและเงื่อนไขความล้มเหลวหนึ่งรายการก่อนการทดสอบ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
ดำเนินการนำร่องขนาดเล็กด้วยข้อมูลตัวแทน ไม่ใช่ชุดสาธิตที่สวยงาม
ดำเนินการนำร่องขนาดเล็กด้วยข้อมูลตัวแทน ไม่ใช่ชุดสาธิตที่สวยงาม ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
เอกสารที่ซึ่งการฝึกอบรมเพื่อเพิ่มประสิทธิภาพการประมวลผลของ Chinchilla ช่วยได้ และวิธีที่ง่ายกว่าจะดีกว่า
เอกสารที่ซึ่งการฝึกอบรมเพื่อเพิ่มประสิทธิภาพการประมวลผลของ Chinchilla ช่วยได้ และวิธีที่ง่ายกว่าจะดีกว่า ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น