คู่มือทางเทคนิค

โมเดล Mixtral และ Sparse

Mixtral เป็นโมเดลแบบผสมผสานของผู้เชี่ยวชาญแบบเปิดของ Mistral AI ที่ให้คุณภาพของโมเดลขนาดใหญ่ด้วยความเร็วของโมเดลขนาดเล็ก

ภาพรวม

Mixtral เป็นโมเดลแบบผสมผสานของผู้เชี่ยวชาญแบบเปิดของ Mistral AI ที่ให้คุณภาพของโมเดลขนาดใหญ่ด้วยความเร็วของโมเดลขนาดเล็ก โมเดลแบบเบาบางเหมือนกับที่เปิดใช้งานเพียงเศษเสี้ยวของพารามิเตอร์ต่อโทเค็น ช่วยลดการประมวลผลโดยไม่ทำให้ความสามารถลดลง

โมเดล Mixtral และ Sparse เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

Mixtral 8x7B ซึ่งเปิดตัวโดย Mistral AI ในช่วงปลายปี 2023 ทำให้แนวทางการผสมผสานของผู้เชี่ยวชาญ (MoE) แบบเบาบางเป็นที่นิยมในรุ่นเปิด ประกอบด้วยเครือข่ายฟีดฟอร์เวิร์ด 'ผู้เชี่ยวชาญ' แยกกันแปดเครือข่ายต่อเลเยอร์ โดยมีพารามิเตอร์ทั้งหมดประมาณ 47 พันล้านพารามิเตอร์ แต่เราเตอร์น้ำหนักเบาจะเลือกผู้เชี่ยวชาญเพียงสองคนสำหรับแต่ละโทเค็น ด้วยเหตุนี้ จึงมีพารามิเตอร์ที่ใช้งานอยู่ประมาณ 13 พันล้านพารามิเตอร์ต่อโทเค็น ดังนั้นการอนุมานจึงดำเนินการได้เร็วพอๆ กับโมเดลหนาแน่น 13B ในขณะที่มีคุณภาพเทียบเท่ากับโมเดลที่ใหญ่กว่ามาก Mixtral จับคู่หรือเอาชนะ GPT-3.5 และ Llama 2 70B ในเกณฑ์มาตรฐานต่างๆ ในขณะที่ให้บริการได้เร็วกว่าและราคาถูกกว่า มิสทรัลเปิดตัว Mixtral 8x22B ในเวลาต่อมา โมเดลดังกล่าวได้รับอนุญาตอย่างเปิดเผยภายใต้ Apache 2.0 ซึ่งกระตุ้นให้เกิดการนำไปใช้อย่างรวดเร็วและการปรับแต่งอย่างละเอียดในชุมชนโอเพ่นซอร์ส

ข้อมูลเชิงลึกทางเทคนิค

ในเลเยอร์ MoE แบบกระจัดกระจาย บล็อกฟีดฟอร์เวิร์ดหนาแน่นจะถูกแทนที่ด้วยเครือข่ายผู้เชี่ยวชาญ N บวกกับเครือข่ายเกตขนาดเล็ก (เราเตอร์) สำหรับแต่ละโทเค็น เราเตอร์จะคำนวณคะแนนและเลือกผู้เชี่ยวชาญระดับท็อป (2 อันดับแรกใน Mixtral) โดยกำหนดเส้นทางโทเค็นผ่านสิ่งเหล่านั้นเท่านั้น ผลลัพธ์จะถูกถ่วงน้ำหนักและสรุป เนื่องจากผู้เชี่ยวชาญส่วนใหญ่ไม่มีการใช้งานต่อโทเค็น โมเดลจึงเก็บพารามิเตอร์จำนวนมากไว้ในหน่วยความจำแต่ยังใช้การคำนวณน้อยกว่ามาก ข้อดีข้อเสีย: ผู้เชี่ยวชาญทุกคนจะต้องโหลดลงใน VRAM แม้ว่าจะใช้งานเพียงบางส่วนเท่านั้น

การเรียนรู้โมเดล Mixtral และ Sparse

Mixtral เป็นโมเดลแบบผสมผสานของผู้เชี่ยวชาญแบบเปิดของ Mistral AI ที่ให้คุณภาพของโมเดลขนาดใหญ่ด้วยความเร็วของโมเดลขนาดเล็ก โมเดลแบบเบาบางเหมือนกับที่เปิดใช้งานเพียงเศษเสี้ยวของพารามิเตอร์ต่อโทเค็น ช่วยลดการประมวลผลโดยไม่ทำให้ความสามารถลดลง โมเดล Mixtral และ Sparse เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Mixtral และ Sparse Models เป็นเพียงแบบจำลองการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้โมเดล Mixtral และ Sparse จะปรับตัวเลือกสถาปัตยกรรม ข้อมูล และโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของโมเดล Mixtral และ Sparse

ตอนนี้ Sparse MoE เป็นศูนย์กลางของ AI ระดับแนวหน้าแล้ว คาดว่าจะมีการเปิดตัว MoE ที่เปิดกว้างมากขึ้น การกำหนดเส้นทางที่ละเอียดยิ่งขึ้นกับผู้เชี่ยวชาญรายย่อยจำนวนมาก และการออกแบบของผู้เชี่ยวชาญที่ใช้ร่วมกันหรือไฮบริดที่ปรับปรุงประสิทธิภาพให้ดียิ่งขึ้น เมื่อโมเดลขยายไปสู่พารามิเตอร์ทั้งหมดนับล้านล้าน ความกระจัดกระจายจึงเป็นปัจจัยหลักในการทำให้การอนุมานมีราคาไม่แพง การวิจัยกำลังจัดการกับจุดอ่อนของ MoE การปรับสมดุลโหลดของผู้เชี่ยวชาญ โอเวอร์เฮดของหน่วยความจำ และความเสถียรในการฝึกอบรม ในขณะที่ฮาร์ดแวร์และสแต็กการให้บริการได้รับการปรับปรุงให้เหมาะสมมากขึ้นโดยเฉพาะสำหรับการกำหนดเส้นทางของผู้เชี่ยวชาญ

การใช้งานจริงในโลกแห่งความเป็นจริง

ให้บริการแชทบอทคุณภาพสูงในราคาและความเร็วเท่ากับโมเดลที่มีความหนาแน่นน้อยกว่ามาก

โฮสต์ด้วยตนเองในโมเดลลิขสิทธิ์ Apache-2.0 สำหรับผลิตภัณฑ์เชิงพาณิชย์โดยไม่มีค่าธรรมเนียมการใช้งาน

ปรับแต่งพฤติกรรมแต่ละอย่างอย่างละเอียดบน Mixtral สำหรับการเขียนโค้ด การสรุป หรืองานหลายภาษา

เรียกใช้การอนุมานอย่างรวดเร็วบนเซิร์ฟเวอร์หลาย GPU ตัวเดียว โดยที่โมเดล 70B หนาแน่นจะช้าเกินไป

รูปแบบการดำเนินงาน

Mixtral และ Sparse Models ในทางปฏิบัติ

ให้บริการแชทบอทคุณภาพสูงในราคาและความเร็วเท่ากับโมเดลที่มีความหนาแน่นน้อยกว่ามาก

ให้บริการแชทบอทคุณภาพสูงในราคาและความเร็วเท่ากับโมเดลที่มีความหนาแน่นน้อยกว่ามาก ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Mixtral และ Sparse Models ในทางปฏิบัติ

โฮสต์ด้วยตนเองในโมเดลลิขสิทธิ์ Apache-2.0 สำหรับผลิตภัณฑ์เชิงพาณิชย์โดยไม่มีค่าธรรมเนียมการใช้งาน

การโฮสต์โมเดลลิขสิทธิ์ Apache-2.0 ด้วยตนเองสำหรับผลิตภัณฑ์เชิงพาณิชย์โดยไม่มีค่าธรรมเนียมการใช้งาน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อกำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Mixtral และ Sparse Models ในทางปฏิบัติ

ปรับแต่งพฤติกรรมแต่ละอย่างอย่างละเอียดบน Mixtral สำหรับการเขียนโค้ด การสรุป หรืองานหลายภาษา

การปรับแต่งพฤติกรรมแต่ละอย่างอย่างละเอียดบน Mixtral สำหรับการเขียนโค้ด การสรุป หรืองานหลายภาษา ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Mixtral และ Sparse Models ในทางปฏิบัติ

เรียกใช้การอนุมานอย่างรวดเร็วบนเซิร์ฟเวอร์หลาย GPU ตัวเดียว โดยที่โมเดล 70B หนาแน่นจะช้าเกินไป

การอนุมานอย่างรวดเร็วบนเซิร์ฟเวอร์หลาย GPU ตัวเดียว โดยที่โมเดลหนาแน่น 70B จะช้าเกินไป ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป