คู่มือทางเทคนิค

การแบ่งจุดตรวจและการฝึกต่อ

เทคนิคในการบันทึกสถานะการฝึกของโมเดลเป็นชิ้นๆ (ชิ้นส่วน) เพื่อให้โมเดลขนาดใหญ่สามารถบันทึกและโหลดซ้ำได้โดยไม่ทำให้หน่วยความจำหรือขีดจำกัดของดิสก์ติดขัด และการรันที่ขัดข้องสามารถรับตำแหน่งที่ค้างไว้ได้อย่างแม่นยำ

ภาพรวม

เทคนิคในการบันทึกสถานะการฝึกของโมเดลเป็นชิ้นๆ (ชิ้นส่วน) เพื่อให้โมเดลขนาดใหญ่สามารถบันทึกและโหลดซ้ำได้โดยไม่ทำให้หน่วยความจำหรือขีดจำกัดของดิสก์ติดขัด และการรันที่ขัดข้องสามารถรับตำแหน่งที่ค้างไว้ได้อย่างแม่นยำ จำเป็นสำหรับงานฝึกอบรมใดๆ ที่ทำงานเป็นเวลาหลายวันหรือหลายสัปดาห์ใน GPU หลายตัว

Checkpoint Sharding และ Resumable Training เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

จุดตรวจสอบการฝึกอบรมคือภาพรวมของทุกสิ่งที่จำเป็นในการกลับมาทำงานต่อ: น้ำหนักโมเดล สถานะของเครื่องมือเพิ่มประสิทธิภาพ กำหนดอัตราการเรียนรู้ ตำแหน่งของตัวโหลดข้อมูล และเริ่มต้นการสร้างตัวเลขสุ่ม สำหรับรุ่นขนาดใหญ่ สแนปช็อตอาจมีขนาดหลายร้อยกิกะไบต์ ซึ่งใหญ่เกินไปสำหรับไฟล์เดียวหรือหน่วยความจำของเครื่องเดียว การแบ่งส่วนเช็คพอยต์จะแยกสแนปชอตนั้นออกเป็นหลายไฟล์และหลายอันดับ ดังนั้น GPU แต่ละตัวจึงเขียนเฉพาะสไลซ์ของตัวเองในแบบคู่ขนาน การฝึกต่อจะโหลดชิ้นส่วนเหล่านั้นซ้ำและฟื้นฟูสถานะเต็มอย่างแม่นยำ หากไม่มีสิ่งนี้ การวิ่งหลายสัปดาห์ที่ขัดข้องที่ชั่วโมง 200 จะต้องเริ่มต้นใหม่ตั้งแต่ต้น เฟรมเวิร์ก เช่น PyTorch Distributed Checkpoint, DeepSpeed ​​และรูปแบบชาร์ดเซฟเทนเซอร์ของ Hugging Face Hub ทำให้สิ่งนี้เป็นกิจวัตร

ข้อมูลเชิงลึกทางเทคนิค

การแบ่งส่วนทำงานได้เนื่องจากการฝึกอบรมแบบกระจายได้แบ่งพาร์ติชันน้ำหนักและสถานะเครื่องมือเพิ่มประสิทธิภาพข้ามอันดับแล้ว (ผ่านข้อมูล เทนเซอร์ หรือความขนานของ ZeRO) แต่ละอันดับจะซีเรียลไลซ์เฉพาะพาร์ติชั่นเท่านั้น ซึ่งมักจะอยู่ในรูปแบบเช่นตัวป้องกันที่อนุญาตให้โหลดแบบขี้เกียจและแมปหน่วยความจำ ไฟล์ดัชนีแมปชื่อพารามิเตอร์กับไฟล์ชาร์ด หากต้องการดำเนินการต่อตามที่กำหนด ระบบจะคงสถานะ RNG จำนวนขั้นตอนของเครื่องมือเพิ่มประสิทธิภาพ และออฟเซ็ตตัวโหลดข้อมูลที่แน่นอน ดังนั้นการรันซ้ำจะสร้างลำดับของแบตช์เดียวกัน

การเรียนรู้การแบ่งส่วนด่านและการฝึกต่อ

เทคนิคในการบันทึกสถานะการฝึกของโมเดลเป็นชิ้นๆ (ชิ้นส่วน) เพื่อให้โมเดลขนาดใหญ่สามารถบันทึกและโหลดซ้ำได้โดยไม่ทำให้หน่วยความจำหรือขีดจำกัดของดิสก์ติดขัด และการรันที่ขัดข้องสามารถรับตำแหน่งที่ค้างไว้ได้อย่างแม่นยำ จำเป็นสำหรับงานฝึกอบรมใดๆ ที่ทำงานเป็นเวลาหลายวันหรือหลายสัปดาห์ใน GPU หลายตัว Checkpoint Sharding และ Resumable Training เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Checkpoint Sharding และ Resumable Training เป็นรูปแบบการปฏิบัติงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Checkpoint Sharding และ Resumable Training จะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของ Checkpoint Sharding และการฝึกอบรมที่กลับมาทำงานต่อได้

จุดตรวจกำลังเปลี่ยนจากเหตุการณ์หยุดโลกเป็นระยะไปเป็นเหตุการณ์ที่ไม่ตรงกันและเกือบจะฟรี คาดว่าจะมีจุดตรวจสอบในหน่วยความจำและทับซ้อนกันมากขึ้นซึ่งจะเขียนชาร์ดในเบื้องหลังในขณะที่การฝึกอบรมดำเนินต่อไป รวมถึงจุดตรวจสอบที่ใช้รหัสลบและทำซ้ำซึ่งรอดพ้นจากความล้มเหลวของโหนดซึ่งพบได้ทั่วไปในระดับพัน GPU การจัดเก็บออบเจ็กต์บนคลาวด์และระดับ NVMe ภายในที่เร็วขึ้นจะโฮสต์ชาร์ด และรูปแบบที่เป็นมาตรฐาน เช่น ตัวป้องกัน จะปรับปรุงการโหลดบางส่วนที่ปลอดภัย รวดเร็ว และต่อเนื่องสำหรับทั้งการเริ่มต้นการฝึกอบรมใหม่และการปรับใช้การอนุมาน

การใช้งานจริงในโลกแห่งความเป็นจริง

โมเดลชายแดนที่ทำงานบน GPU หลายพันตัวที่บันทึกจุดตรวจสอบที่แบ่งส่วนโดยอัตโนมัติทุกๆ สองสามร้อยก้าว ดังนั้นโหนดที่ล้มเหลวเพียงโหนดเดียวจะมีค่าใช้จ่ายเพียงไม่กี่นาที ไม่ใช่เป็นวัน

Hugging Face แจกจ่ายโมเดลเปิดขนาดใหญ่เป็นชาร์ดของตัวป้องกันหลายตัวพร้อมทั้ง index.json เพื่อให้ผู้ใช้สามารถดาวน์โหลดและโหลดทีละชิ้นได้

นักวิจัยกลับมาทำการปรับแต่งแบบละเอียดที่ถูกขัดจังหวะอีกครั้ง ซึ่งจะคืนค่าโมเมนตัมของเครื่องมือเพิ่มประสิทธิภาพ จำนวนก้าว และตำแหน่งตัวโหลดข้อมูลที่แน่นอนเพื่อดำเนินการต่ออย่างราบรื่น

การฝึกอบรมอินสแตนซ์เฉพาะจุดบน GPU บนระบบคลาวด์แบบยอมเสียชั่วคราวราคาถูก ซึ่งมีจุดตรวจสอบที่แยกส่วนบ่อยครั้งทำให้งานรอดจากการถูกไล่ออกและกำหนดเวลาใหม่

รูปแบบการดำเนินงาน

Checkpoint Sharding และการฝึกอบรมต่อในทางปฏิบัติ

โมเดลชายแดนที่ทำงานบน GPU หลายพันตัวที่บันทึกจุดตรวจสอบที่แบ่งส่วนโดยอัตโนมัติทุกๆ สองสามร้อยก้าว ดังนั้นโหนดที่ล้มเหลวเพียงโหนดเดียวจะมีค่าใช้จ่ายเพียงไม่กี่นาที ไม่ใช่เป็นวัน

โมเดลชายแดนที่ทำงานบน GPU หลายพันตัวที่บันทึกจุดตรวจสอบที่แบ่งส่วนโดยอัตโนมัติทุกๆ สองสามร้อยขั้นตอน ดังนั้นโหนดที่ล้มเหลวเพียงโหนดเดียวจะมีค่าใช้จ่ายเพียงไม่กี่นาที ไม่ใช่หลายวัน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Checkpoint Sharding และการฝึกอบรมต่อในทางปฏิบัติ

Hugging Face แจกจ่ายโมเดลเปิดขนาดใหญ่เป็นชาร์ดของตัวป้องกันหลายตัวพร้อมทั้ง index.json เพื่อให้ผู้ใช้สามารถดาวน์โหลดและโหลดทีละชิ้นได้

Hugging Face แจกจ่ายโมเดลแบบเปิดขนาดใหญ่เป็นชาร์ดของตัวป้องกันหลายตัวพร้อมทั้ง index.json เพื่อให้ผู้ใช้สามารถดาวน์โหลดและโหลดทีละชิ้น ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Checkpoint Sharding และการฝึกอบรมต่อในทางปฏิบัติ

นักวิจัยกลับมาทำการปรับแต่งแบบละเอียดที่ถูกขัดจังหวะอีกครั้ง ซึ่งจะคืนค่าโมเมนตัมของเครื่องมือเพิ่มประสิทธิภาพ จำนวนก้าว และตำแหน่งตัวโหลดข้อมูลที่แน่นอนเพื่อดำเนินการต่ออย่างราบรื่น

นักวิจัยกลับมาทำการปรับแต่งแบบละเอียดที่ถูกขัดจังหวะอีกครั้ง ซึ่งจะคืนค่าโมเมนตัมของเครื่องมือเพิ่มประสิทธิภาพ การนับก้าว และตำแหน่งตัวโหลดข้อมูลที่แน่นอนเพื่อดำเนินการต่อได้อย่างราบรื่น ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Checkpoint Sharding และการฝึกอบรมต่อในทางปฏิบัติ

การฝึกอบรมอินสแตนซ์เฉพาะจุดบน GPU บนระบบคลาวด์แบบยอมเสียชั่วคราวราคาถูก ซึ่งมีจุดตรวจสอบที่แยกส่วนบ่อยครั้งทำให้งานรอดจากการถูกไล่ออกและกำหนดเวลาใหม่

การฝึกอบรมอินสแตนซ์เฉพาะจุดบน GPU บนคลาวด์แบบยอมเสียชั่วคราวราคาถูก โดยที่จุดตรวจสอบที่แบ่งส่วนบ่อยครั้งทำให้งานรอดจากการถูกไล่ออก และทีมที่จัดกำหนดการใหม่มักจะได้รับผลลัพธ์ที่ดีกว่า เมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป