คู่มือการฝึกอบรม Checkpoint Sharding และ Resusable

ภาพรวม

เทคนิคในการบันทึกสถานะการฝึกของโมเดลเป็นชิ้นๆ (ชิ้นส่วน) เพื่อให้โมเดลขนาดใหญ่สามารถบันทึกและโหลดซ้ำได้โดยไม่ทำให้หน่วยความจำหรือขีดจำกัดของดิสก์ติดขัด และการรันที่ขัดข้องสามารถรับตำแหน่งที่ค้างไว้ได้อย่างแม่นยำ จำเป็นสำหรับงานฝึกอบรมใดๆ ที่ทำงานเป็นเวลาหลายวันหรือหลายสัปดาห์ใน GPU หลายตัว

Checkpoint Sharding และ Resumable Training เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

จุดตรวจสอบการฝึกอบรมคือภาพรวมของทุกสิ่งที่จำเป็นในการกลับมาทำงานต่อ: น้ำหนักโมเดล สถานะของเครื่องมือเพิ่มประสิทธิภาพ กำหนดอัตราการเรียนรู้ ตำแหน่งของตัวโหลดข้อมูล และเริ่มต้นการสร้างตัวเลขสุ่ม สำหรับรุ่นขนาดใหญ่ สแนปช็อตอาจมีขนาดหลายร้อยกิกะไบต์ ซึ่งใหญ่เกินไปสำหรับไฟล์เดียวหรือหน่วยความจำของเครื่องเดียว การแบ่งส่วนเช็คพอยต์จะแยกสแนปชอตนั้นออกเป็นหลายไฟล์และหลายอันดับ ดังนั้น GPU แต่ละตัวจึงเขียนเฉพาะสไลซ์ของตัวเองในแบบคู่ขนาน การฝึกต่อจะโหลดชิ้นส่วนเหล่านั้นซ้ำและฟื้นฟูสถานะเต็มอย่างแม่นยำ หากไม่มีสิ่งนี้ การวิ่งหลายสัปดาห์ที่ขัดข้องที่ชั่วโมง 200 จะต้องเริ่มต้นใหม่ตั้งแต่ต้น เฟรมเวิร์ก เช่น PyTorch Distributed Checkpoint, DeepSpeed และรูปแบบชาร์ดเซฟเทนเซอร์ของ Hugging Face Hub ทำให้สิ่งนี้เป็นกิจวัตร

ข้อมูลเชิงลึกทางเทคนิค

การแบ่งส่วนทำงานได้เนื่องจากการฝึกอบรมแบบกระจายได้แบ่งพาร์ติชันน้ำหนักและสถานะเครื่องมือเพิ่มประสิทธิภาพข้ามอันดับแล้ว (ผ่านข้อมูล เทนเซอร์ หรือความขนานของ ZeRO) แต่ละอันดับจะซีเรียลไลซ์เฉพาะพาร์ติชั่นเท่านั้น ซึ่งมักจะอยู่ในรูปแบบเช่นตัวป้องกันที่อนุญาตให้โหลดแบบขี้เกียจและแมปหน่วยความจำ ไฟล์ดัชนีแมปชื่อพารามิเตอร์กับไฟล์ชาร์ด หากต้องการดำเนินการต่อตามที่กำหนด ระบบจะคงสถานะ RNG จำนวนขั้นตอนของเครื่องมือเพิ่มประสิทธิภาพ และออฟเซ็ตตัวโหลดข้อมูลที่แน่นอน ดังนั้นการรันซ้ำจะสร้างลำดับของแบตช์เดียวกัน

การเรียนรู้การแบ่งส่วนด่านและการฝึกต่อ

เทคนิคในการบันทึกสถานะการฝึกของโมเดลเป็นชิ้นๆ (ชิ้นส่วน) เพื่อให้โมเดลขนาดใหญ่สามารถบันทึกและโหลดซ้ำได้โดยไม่ทำให้หน่วยความจำหรือขีดจำกัดของดิสก์ติดขัด และการรันที่ขัดข้องสามารถรับตำแหน่งที่ค้างไว้ได้อย่างแม่นยำ จำเป็นสำหรับงานฝึกอบรมใดๆ ที่ทำงานเป็นเวลาหลายวันหรือหลายสัปดาห์ใน GPU หลายตัว Checkpoint Sharding และ Resumable Training เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Checkpoint Sharding และ Resumable Training เป็นรูปแบบการปฏิบัติงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Checkpoint Sharding และ Resumable Training จะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของ Checkpoint Sharding และการฝึกอบรมที่กลับมาทำงานต่อได้

จุดตรวจกำลังเปลี่ยนจากเหตุการณ์หยุดโลกเป็นระยะไปเป็นเหตุการณ์ที่ไม่ตรงกันและเกือบจะฟรี คาดว่าจะมีจุดตรวจสอบในหน่วยความจำและทับซ้อนกันมากขึ้นซึ่งจะเขียนชาร์ดในเบื้องหลังในขณะที่การฝึกอบรมดำเนินต่อไป รวมถึงจุดตรวจสอบที่ใช้รหัสลบและทำซ้ำซึ่งรอดพ้นจากความล้มเหลวของโหนดซึ่งพบได้ทั่วไปในระดับพัน GPU การจัดเก็บออบเจ็กต์บนคลาวด์และระดับ NVMe ภายในที่เร็วขึ้นจะโฮสต์ชาร์ด และรูปแบบที่เป็นมาตรฐาน เช่น ตัวป้องกัน จะปรับปรุงการโหลดบางส่วนที่ปลอดภัย รวดเร็ว และต่อเนื่องสำหรับทั้งการเริ่มต้นการฝึกอบรมใหม่และการปรับใช้การอนุมาน

การใช้งานจริงในโลกแห่งความเป็นจริง

โมเดลชายแดนที่ทำงานบน GPU หลายพันตัวที่บันทึกจุดตรวจสอบที่แบ่งส่วนโดยอัตโนมัติทุกๆ สองสามร้อยก้าว ดังนั้นโหนดที่ล้มเหลวเพียงโหนดเดียวจะมีค่าใช้จ่ายเพียงไม่กี่นาที ไม่ใช่เป็นวัน

Hugging Face แจกจ่ายโมเดลเปิดขนาดใหญ่เป็นชาร์ดของตัวป้องกันหลายตัวพร้อมทั้ง index.json เพื่อให้ผู้ใช้สามารถดาวน์โหลดและโหลดทีละชิ้นได้

นักวิจัยกลับมาทำการปรับแต่งแบบละเอียดที่ถูกขัดจังหวะอีกครั้ง ซึ่งจะคืนค่าโมเมนตัมของเครื่องมือเพิ่มประสิทธิภาพ จำนวนก้าว และตำแหน่งตัวโหลดข้อมูลที่แน่นอนเพื่อดำเนินการต่ออย่างราบรื่น

การฝึกอบรมอินสแตนซ์เฉพาะจุดบน GPU บนระบบคลาวด์แบบยอมเสียชั่วคราวราคาถูก ซึ่งมีจุดตรวจสอบที่แยกส่วนบ่อยครั้งทำให้งานรอดจากการถูกไล่ออกและกำหนดเวลาใหม่

รูปแบบการดำเนินงาน

Checkpoint Sharding และการฝึกอบรมต่อในทางปฏิบัติ

โมเดลชายแดนที่ทำงานบน GPU หลายพันตัวที่บันทึกจุดตรวจสอบที่แบ่งส่วนโดยอัตโนมัติทุกๆ สองสามร้อยก้าว ดังนั้นโหนดที่ล้มเหลวเพียงโหนดเดียวจะมีค่าใช้จ่ายเพียงไม่กี่นาที ไม่ใช่เป็นวัน

โมเดลชายแดนที่ทำงานบน GPU หลายพันตัวที่บันทึกจุดตรวจสอบที่แบ่งส่วนโดยอัตโนมัติทุกๆ สองสามร้อยขั้นตอน ดังนั้นโหนดที่ล้มเหลวเพียงโหนดเดียวจะมีค่าใช้จ่ายเพียงไม่กี่นาที ไม่ใช่หลายวัน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Checkpoint Sharding และการฝึกอบรมต่อในทางปฏิบัติ

Hugging Face แจกจ่ายโมเดลเปิดขนาดใหญ่เป็นชาร์ดของตัวป้องกันหลายตัวพร้อมทั้ง index.json เพื่อให้ผู้ใช้สามารถดาวน์โหลดและโหลดทีละชิ้นได้

Hugging Face แจกจ่ายโมเดลแบบเปิดขนาดใหญ่เป็นชาร์ดของตัวป้องกันหลายตัวพร้อมทั้ง index.json เพื่อให้ผู้ใช้สามารถดาวน์โหลดและโหลดทีละชิ้น ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Checkpoint Sharding และการฝึกอบรมต่อในทางปฏิบัติ

นักวิจัยกลับมาทำการปรับแต่งแบบละเอียดที่ถูกขัดจังหวะอีกครั้ง ซึ่งจะคืนค่าโมเมนตัมของเครื่องมือเพิ่มประสิทธิภาพ จำนวนก้าว และตำแหน่งตัวโหลดข้อมูลที่แน่นอนเพื่อดำเนินการต่ออย่างราบรื่น

นักวิจัยกลับมาทำการปรับแต่งแบบละเอียดที่ถูกขัดจังหวะอีกครั้ง ซึ่งจะคืนค่าโมเมนตัมของเครื่องมือเพิ่มประสิทธิภาพ การนับก้าว และตำแหน่งตัวโหลดข้อมูลที่แน่นอนเพื่อดำเนินการต่อได้อย่างราบรื่น ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Checkpoint Sharding และการฝึกอบรมต่อในทางปฏิบัติ

การฝึกอบรมอินสแตนซ์เฉพาะจุดบน GPU บนระบบคลาวด์แบบยอมเสียชั่วคราวราคาถูก ซึ่งมีจุดตรวจสอบที่แยกส่วนบ่อยครั้งทำให้งานรอดจากการถูกไล่ออกและกำหนดเวลาใหม่

การฝึกอบรมอินสแตนซ์เฉพาะจุดบน GPU บนคลาวด์แบบยอมเสียชั่วคราวราคาถูก โดยที่จุดตรวจสอบที่แบ่งส่วนบ่อยครั้งทำให้งานรอดจากการถูกไล่ออก และทีมที่จัดกำหนดการใหม่มักจะได้รับผลลัพธ์ที่ดีกว่า เมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

เกณฑ์มาตรฐาน AI

ใช้การประเมินอย่างเหมาะสมเมื่อเปรียบเทียบตัวเลือกทางเทคนิค

อ่านคู่มือ

การเรียนรู้แบบเสริมกำลัง

เจาะลึกถึงกลยุทธ์การฝึกอบรมทางเทคนิค

อ่านคู่มือ

การแบ่งจุดตรวจและการฝึกต่อ

ภาพรวม

เจาะลึก

ข้อมูลเชิงลึกทางเทคนิค

การเรียนรู้การแบ่งส่วนด่านและการฝึกต่อ

ผลกระทบเชิงกลยุทธ์

อนาคตของ Checkpoint Sharding และการฝึกอบรมที่กลับมาทำงานต่อได้

การใช้งานจริงในโลกแห่งความเป็นจริง

รูปแบบการดำเนินงาน

Checkpoint Sharding และการฝึกอบรมต่อในทางปฏิบัติ

Checkpoint Sharding และการฝึกอบรมต่อในทางปฏิบัติ

Checkpoint Sharding และการฝึกอบรมต่อในทางปฏิบัติ

Checkpoint Sharding และการฝึกอบรมต่อในทางปฏิบัติ

ความเสี่ยงและรั้ว

แผนงานการดำเนินงาน

สำรวจต่อไป

เกณฑ์มาตรฐาน AI

การเรียนรู้แบบเสริมกำลัง