คู่มือทางเทคนิค

ตารางการอุ่นเครื่องและการหลอมโคไซน์

การอุ่นเครื่องค่อยๆ เพิ่มอัตราการเรียนรู้จากใกล้ศูนย์ก่อนการฝึก จากนั้นการอบอ่อนโคไซน์จะสลายกลับลงมาอย่างราบรื่นตามเส้นโค้งโคไซน์

ภาพรวม

การอุ่นเครื่องค่อยๆ เพิ่มอัตราการเรียนรู้จากใกล้ศูนย์ก่อนการฝึก จากนั้นการอบอ่อนโคไซน์จะสลายกลับลงมาอย่างราบรื่นตามเส้นโค้งโคไซน์ ทั้งสองอย่างนี้ช่วยรักษาเสถียรภาพของการฝึกอบรมตั้งแต่เนิ่นๆ และลดความแม่นยำขั้นสุดท้ายให้ดีขึ้น ซึ่งเป็นเหตุผลว่าทำไมหม้อแปลงสมัยใหม่เกือบทุกตัวจึงได้รับการฝึกฝนในลักษณะนี้

กำหนดการอุ่นเครื่องและหลอมโคไซน์เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

เมื่อการฝึกเริ่มต้น น้ำหนักของโมเดลจะเป็นแบบสุ่มและการไล่ระดับสีอาจมีขนาดใหญ่ ดังนั้นการกระโดดตรงไปยังอัตราการเรียนรู้ที่สูงมักจะทำให้เกิดการสูญเสียที่เพิ่มขึ้นหรือความแตกต่าง โดยเฉพาะอย่างยิ่งกับเครื่องมือเพิ่มประสิทธิภาพแบบปรับตัว เช่น Adam ซึ่งการประมาณค่าความแปรปรวนไม่น่าเชื่อถือในขั้นตอนแรก การอุ่นเครื่องแก้ไขปัญหานี้โดยการเพิ่มอัตราเชิงเส้นเป็นเส้นตรงตั้งแต่สองสามร้อยก้าวไปจนถึงสองสามพันก้าว เมื่อแบบจำลองอยู่บนฐานที่มั่นคง การอบอ่อนด้วยโคไซน์จะเข้ามาแทนที่ โดยจะมีอัตราการสลายเป็น 0.5 * (1 + cos(pi * t / T)) ของจุดสูงสุด รูปร่างโคไซน์จะรักษาอัตราให้สูงตั้งแต่เนิ่นๆ เพื่อความก้าวหน้าที่รวดเร็ว จากนั้นค่อยๆ ลดลงเพื่อให้เครื่องมือเพิ่มประสิทธิภาพสามารถตั้งค่าให้อยู่ในระดับต่ำสุดที่ดีแทนที่จะเด้งไปรอบๆ

ข้อมูลเชิงลึกทางเทคนิค

การหลอมโคไซน์จะปรับอัตราการเรียนรู้ 0.5 * (1 + cos(pi * t / T)) โดยที่ t คือขั้นตอนปัจจุบัน และ T คือผลรวม สิ่งนี้ใช้เวลานานใกล้กับอัตราสูงสุด สลายตัวเร็วที่สุดตรงกลาง จากนั้นแบนลงใกล้ศูนย์ในตอนท้าย ไม่เหมือนการสลายเชิงเส้นตรง โดยทั่วไปการวอร์มอัพจะเป็นเส้นตรงและสั้น เส้นโค้งที่รวมกันดูเหมือนเนินเขาเรียบ: ขึ้นไปที่ราบสูง จากนั้นร่อนอย่างนุ่มนวลจนเกือบเป็นศูนย์

การเรียนรู้ตารางการอุ่นเครื่องและการหลอมโคไซน์

การอุ่นเครื่องค่อยๆ เพิ่มอัตราการเรียนรู้จากใกล้ศูนย์ก่อนการฝึก จากนั้นการอบอ่อนโคไซน์จะสลายกลับลงมาอย่างราบรื่นตามเส้นโค้งโคไซน์ ทั้งสองอย่างนี้ช่วยรักษาเสถียรภาพของการฝึกอบรมตั้งแต่เนิ่นๆ และลดความแม่นยำขั้นสุดท้ายให้ดีขึ้น ซึ่งเป็นเหตุผลว่าทำไมหม้อแปลงสมัยใหม่เกือบทุกตัวจึงได้รับการฝึกฝนในลักษณะนี้ กำหนดการอุ่นเครื่องและหลอมโคไซน์เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Warmup และ Cosine Annealing Schedules เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้กำหนดการ Warmup และ Cosine Annealing จะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการวอร์มอัพและการหลอมโคไซน์

Warmup-plus-cosine ยังคงเป็นสูตรเริ่มต้นสำหรับโมเดลภาษาขนาดใหญ่ แต่รูปแบบต่างๆ กำลังแพร่กระจาย Warmup-stable-decay (WSD) จะรักษาอัตราคงที่ จากนั้นจะลดลงอย่างรวดเร็วในตอนท้าย ทำให้ง่ายต่อการขยายการวิ่งโดยไม่ต้องกำหนดความยาวคงที่อีกครั้ง นักวิจัยยังกำลังศึกษาว่าเหตุใดการวอร์มอัพจึงได้ผล โดยเชื่อมโยงกับสัญญาณรบกวนแบบไล่ระดับและความโค้งที่สูญเสียไปของแนวนอน และเครื่องมือต่างๆ จะปรับความยาวการวอร์มอัพและอัตราสูงสุดโดยอัตโนมัติมากขึ้น ซึ่งช่วยลดการลองผิดลองถูกแบบแมนนวลซึ่งครอบงำอยู่ในปัจจุบัน

การใช้งานจริงในโลกแห่งความเป็นจริง

โมเดลภาษาสไตล์ GPT และสไตล์ BERT ใช้การวอร์มอัพเชิงเส้นในช่วง ~1-2% แรกของขั้นตอนแรก ตามด้วยการสลายตัวของโคไซน์จนใกล้ศูนย์

Vision Transformers (ViT) ฝึกฝนด้วยการหลอมโคไซน์และการวอร์มอัพระยะสั้นเพื่อหลีกเลี่ยงความแตกต่างตั้งแต่เนิ่นๆ บน ImageNet

Hugging Face Transformers เสนอ `get_cosine_schedule_with_warmup` เป็นตัวกำหนดเวลาบรรทัดเดียวสำหรับการปรับแต่งงานอย่างละเอียด

การกระจายที่เสถียรและแบบจำลองการแพร่กระจายอื่นๆ ปรับแต่งอย่างละเอียดด้วยการวอร์มอัพ เพื่อป้องกันการระเบิดแบบเกรเดียนต์ เมื่อปรับตุ้มน้ำหนักที่ฝึกไว้ล่วงหน้า

รูปแบบการดำเนินงาน

ตารางการอุ่นเครื่องและการหลอมโคไซน์ในทางปฏิบัติ

โมเดลภาษาสไตล์ GPT และสไตล์ BERT ใช้การวอร์มอัพเชิงเส้นในช่วง ~1-2% แรกของขั้นตอนแรก ตามด้วยการสลายตัวของโคไซน์จนใกล้ศูนย์

โมเดลภาษาสไตล์ GPT และสไตล์ BERT ใช้การอุ่นเครื่องเชิงเส้นในช่วง ~1-2% แรกของขั้นตอนแรก ตามด้วยการสลายตัวของโคไซน์จนเกือบเป็นศูนย์ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลิตภาพและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ตารางการอุ่นเครื่องและการหลอมโคไซน์ในทางปฏิบัติ

Vision Transformers (ViT) ฝึกฝนด้วยการหลอมโคไซน์และการวอร์มอัพระยะสั้นเพื่อหลีกเลี่ยงความแตกต่างตั้งแต่เนิ่นๆ บน ImageNet

Vision Transformers (ViT) ฝึกฝนด้วยการหลอมโคไซน์และการวอร์มอัพระยะสั้นเพื่อหลีกเลี่ยงความแตกต่างตั้งแต่เนิ่นๆ บน ImageNet ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ตารางการอุ่นเครื่องและการหลอมโคไซน์ในทางปฏิบัติ

Hugging Face Transformers เสนอ `get_cosine_schedule_with_warmup` เป็นตัวกำหนดเวลาบรรทัดเดียวสำหรับการปรับแต่งงานอย่างละเอียด

Hugging Face Transformers เสนอ `get_cosine_schedule_with_warmup` เป็นตัวกำหนดเวลาบรรทัดเดียวสำหรับการปรับแต่งงาน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ตารางการอุ่นเครื่องและการหลอมโคไซน์ในทางปฏิบัติ

การกระจายที่เสถียรและแบบจำลองการแพร่กระจายอื่นๆ ปรับแต่งอย่างละเอียดด้วยการวอร์มอัพ เพื่อป้องกันการระเบิดแบบเกรเดียนต์ เมื่อปรับตุ้มน้ำหนักที่ฝึกไว้ล่วงหน้า

การแพร่กระจายที่เสถียรและโมเดลการแพร่กระจายอื่นๆ ปรับแต่งอย่างละเอียดด้วยการอุ่นเครื่องเพื่อป้องกันการระเบิดแบบไล่ระดับเมื่อปรับน้ำหนักที่ฝึกไว้ล่วงหน้า ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป