คู่มือทางเทคนิค

การรวมโมเดล

การรวมโมเดลจะรวมน้ำหนักของโครงข่ายประสาทเทียมที่ได้รับการฝึกตั้งแต่สองตัวขึ้นไปให้เป็นโมเดลเดียว โดยไม่ต้องมีการฝึกซ้ำหรือเข้าถึงข้อมูลการฝึกดั้งเดิมใดๆ

ภาพรวม

การรวมโมเดลจะรวมน้ำหนักของโครงข่ายประสาทเทียมที่ได้รับการฝึกตั้งแต่สองตัวขึ้นไปให้เป็นโมเดลเดียว โดยไม่ต้องมีการฝึกซ้ำหรือเข้าถึงข้อมูลการฝึกดั้งเดิมใดๆ สิ่งสำคัญคือช่วยให้ทีมผสมผสานทักษะเฉพาะทางได้ในราคาถูก โดยเปลี่ยนโมเดลที่ได้รับการปรับแต่งราคาแพงให้กลายเป็นแบบเอกสารสำเร็จรูปที่นำกลับมาใช้ใหม่ได้

การรวมโมเดลเป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

การรวมโมเดลจะรวมพารามิเตอร์จริง (น้ำหนัก) ของโมเดลหลายตัวที่ใช้สถาปัตยกรรมเดียวกัน วิธีที่ง่ายที่สุดคือการหาค่าเฉลี่ยน้ำหนักโดยใช้ค่าเฉลี่ยของน้ำหนักที่สอดคล้องกัน วิธีการที่ชาญฉลาดกว่านั้นใช้ได้กับ 'เวกเตอร์งาน' ซึ่งเป็นความแตกต่างระหว่างแบบจำลองที่ได้รับการปรับแต่งและฐานของมัน การเพิ่มเวกเตอร์งานเป็นการแทรกทักษะ การลบออกสามารถลบพฤติกรรมที่ไม่พึงประสงค์ได้ เทคนิคเช่น TIES-Merging และ DARE ตัดแต่งและปรับขนาดเวกเตอร์เหล่านี้เพื่อลดการรบกวนเมื่อหลาย ๆ โมเดลรวมกัน เนื่องจากไม่จำเป็นต้องมีการไล่ระดับหรือข้อมูล การผสานจึงดำเนินการในไม่กี่วินาทีบนแล็ปท็อป สิ่งที่จับได้: ใช้งานได้เฉพาะเมื่อโมเดลลงมาจากฐานร่วมและอาศัยอยู่ในพื้นที่ที่เข้ากันได้ของพื้นที่น้ำหนัก

ข้อมูลเชิงลึกทางเทคนิค

แนวคิดหลักคือการปรับแต่งอย่างละเอียดจะย้ายตุ้มน้ำหนักไปตาม 'จุดสูญเสีย' ที่ค่อนข้างราบเรียบใกล้กับโมเดลพื้นฐาน เวกเตอร์งานเป็นเพียง (น้ำหนักที่ปรับแล้วลบด้วยน้ำหนักฐาน) เนื่องจากเวกเตอร์เหล่านี้เป็นเส้นตรงโดยประมาณและมักจะอยู่ใกล้มุมฉากในงานต่างๆ คุณจึงสามารถรวมหลายๆ เข้าด้วยกันได้ และแบบจำลองที่รวมกันจะรักษาทักษะแต่ละอย่างไว้ ก่อนอื่น TIES และ DARE จะตัดเดลต้าน้ำหนักขนาดเล็กหรือที่ขัดแย้งกันออกก่อน เพื่อลดความขัดแย้งในการลงนาม จากนั้นจึงรวมเข้าด้วยกัน เพื่อป้องกันไม่ให้งานหนึ่งเขียนทับงานอื่น

การเรียนรู้การรวมโมเดล

การรวมโมเดลจะรวมน้ำหนักของโครงข่ายประสาทเทียมที่ได้รับการฝึกตั้งแต่สองตัวขึ้นไปให้เป็นโมเดลเดียว โดยไม่ต้องมีการฝึกซ้ำหรือเข้าถึงข้อมูลการฝึกดั้งเดิมใดๆ สิ่งสำคัญคือช่วยให้ทีมผสมผสานทักษะเฉพาะทางได้ในราคาถูก โดยเปลี่ยนโมเดลที่ได้รับการปรับแต่งราคาแพงให้กลายเป็นแบบเอกสารสำเร็จรูปที่นำกลับมาใช้ใหม่ได้ การรวมโมเดลเป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Model Merging เป็นเพียงโมเดลการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Model Merging จะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการผสานโมเดล

คาดว่าการรวมเข้าด้วยกันจะกลายเป็นส่วนมาตรฐานของโมเดล 'ห่วงโซ่อุปทาน' ฮับต่างๆ มีจุดตรวจที่รวมเข้าด้วยกันนับพันจุดอยู่แล้ว และเครื่องมือต่างๆ เช่น ชุดผสานทำให้สูตรอาหารสามารถแชร์ได้ การวิจัยกำลังมุ่งไปสู่การค้นหาแบบผสานอัตโนมัติ (อัลกอริธึมวิวัฒนาการเลือกอัตราส่วนการผสมผสานแบบเลเยอร์) ผสานเข้ากับสถาปัตยกรรมที่แตกต่างกันเล็กน้อย และผสานส่วนประกอบ Mixture-of-Experts ได้ทันที เนื่องจากการปรับแต่งแบบเปิดแพร่หลาย การผสานรวมจึงเป็นวิธีที่แทบจะไม่มีค่าใช้จ่ายในการเขียนความสามารถ แม้ว่าการออกใบอนุญาตและแหล่งที่มาของโมเดลที่ผสานจะต้องมีมาตรฐานที่ชัดเจนกว่า

การใช้งานจริงในโลกแห่งความเป็นจริง

การผสมผสานโมเดลที่ปรับแต่งโค้ดเข้ากับโมเดลที่ปรับแต่งการแชท ดังนั้น LLM หนึ่งคนจึงเขียนโค้ดและสนทนาได้อย่างเป็นธรรมชาติ โดยไม่ต้องฝึกอบรมซ้ำ

การทดลองผสานเชิงวิวัฒนาการที่รวมแบบจำลองภาษาญี่ปุ่นเข้ากับแบบจำลองคณิตศาสตร์ภาษาอังกฤษเพื่อสร้างเครื่องมือแก้ปัญหาคณิตศาสตร์ที่แข็งแกร่งในภาษาญี่ปุ่น

การลบเวกเตอร์งาน 'ความเป็นพิษ' ออกจากน้ำหนักของแบบจำลองเพื่อลดผลลัพธ์ที่เป็นอันตรายโดยไม่ต้องรวบรวมข้อมูลความปลอดภัยใหม่

การรวมอะแดปเตอร์ LoRA หลายตัวที่ได้รับการฝึกสไตล์การเขียนที่แตกต่างกันเข้าไว้ในรุ่นเดียวที่สามารถเปลี่ยนโทนเสียงได้อย่างยืดหยุ่น

รูปแบบการดำเนินงาน

การรวมโมเดลในทางปฏิบัติ

การผสมผสานโมเดลที่ปรับแต่งโค้ดเข้ากับโมเดลที่ปรับแต่งการแชท ดังนั้น LLM หนึ่งคนจึงเขียนโค้ดและสนทนาได้อย่างเป็นธรรมชาติ โดยไม่ต้องฝึกอบรมซ้ำ

การผสมผสานโมเดลที่ปรับแต่งการเขียนโค้ดเข้ากับโมเดลที่ปรับแต่งด้วยการแชท เพื่อให้ LLM หนึ่งคนเขียนโค้ดและสนทนาได้อย่างเป็นธรรมชาติ โดยไม่ต้องฝึกอบรมทีมใดทีมหนึ่งมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การรวมโมเดลในทางปฏิบัติ

การทดลองผสานเชิงวิวัฒนาการที่รวมแบบจำลองภาษาญี่ปุ่นเข้ากับแบบจำลองคณิตศาสตร์ภาษาอังกฤษเพื่อสร้างเครื่องมือแก้ปัญหาคณิตศาสตร์ที่แข็งแกร่งในภาษาญี่ปุ่น

การทดลองผสานเชิงวิวัฒนาการที่รวมแบบจำลองภาษาญี่ปุ่นเข้ากับแบบจำลองคณิตศาสตร์ภาษาอังกฤษเพื่อสร้างนักแก้ปัญหาคณิตศาสตร์ภาษาญี่ปุ่นที่แข็งแกร่ง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับของมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การรวมโมเดลในทางปฏิบัติ

การลบเวกเตอร์งาน 'ความเป็นพิษ' ออกจากน้ำหนักของแบบจำลองเพื่อลดผลลัพธ์ที่เป็นอันตรายโดยไม่ต้องรวบรวมข้อมูลความปลอดภัยใหม่

การลบเวกเตอร์งาน 'ความเป็นพิษ' ออกจากน้ำหนักของแบบจำลองเพื่อลดผลลัพธ์ที่เป็นอันตรายโดยไม่ต้องรวบรวมข้อมูลความปลอดภัยใหม่ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การรวมโมเดลในทางปฏิบัติ

การรวมอะแดปเตอร์ LoRA หลายตัวที่ได้รับการฝึกสไตล์การเขียนที่แตกต่างกันเข้าไว้ในรุ่นเดียวที่สามารถเปลี่ยนโทนเสียงได้อย่างยืดหยุ่น

การรวมอะแดปเตอร์ LoRA หลายตัวที่ได้รับการฝึกอบรมเกี่ยวกับสไตล์การเขียนที่แตกต่างกันเป็นโมเดลเดียวที่สามารถเปลี่ยนโทนเสียงได้อย่างยืดหยุ่น ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป