คู่มือทางเทคนิค

การปรับใช้ Canary และ Shadow

การปรับใช้ Canary และ Shadow เป็นกลยุทธ์ที่มีความเสี่ยงต่ำสองประการในการเปิดตัวโมเดลหรือบริการใหม่สู่การใช้งานจริง

ภาพรวม

การปรับใช้ Canary และ Shadow เป็นกลยุทธ์ที่มีความเสี่ยงต่ำสองประการในการเปิดตัวโมเดลหรือบริการใหม่สู่การใช้งานจริง นกขมิ้นส่งปริมาณข้อมูลจริงเพียงเล็กน้อยไปยังเวอร์ชันใหม่ Shadow จะส่งสำเนาการรับส่งข้อมูลโดยไม่ตอบสนองผู้ใช้ — ดังนั้นทั้งคู่จึงตรวจพบปัญหาก่อนการเปิดตัวเต็มรูปแบบ

Canary และ Shadow Deployments เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

เมื่อคุณจัดส่งโมเดลใหม่ การดำเนินการที่ปลอดภัยที่สุดคือไม่ต้องพลิกทุกคนพร้อมกัน การปรับใช้ Canary จะกำหนดเส้นทางปริมาณการใช้งานสดเป็นเปอร์เซ็นต์เล็กน้อย เช่น 1% หรือ 5% ไปยังเวอร์ชันใหม่ ในขณะที่คนอื่นๆ ยังคงใช้เวอร์ชันเก่า คุณดูอัตราข้อผิดพลาด เวลาแฝง และตัวชี้วัดทางธุรกิจ หากนกคีรีบูนดูแข็งแรงดี คุณจะค่อยๆ เพิ่มส่วนแบ่งของมัน และถ้ามันทำงานผิดปกติ คุณจะถอยกลับทันทีโดยมีรัศมีการระเบิดน้อยที่สุด การใช้งานเงา (หรือ 'ความมืด') แตกต่างออกไป: โมเดลใหม่ได้รับสำเนาคำขอจริงแบบมิเรอร์ แต่การตอบสนองจะถูกยกเลิก และไม่เคยเข้าถึงผู้ใช้เลย ซึ่งช่วยให้คุณวัดการคาดการณ์ เวลาแฝง และการใช้ทรัพยากรของโมเดลใหม่เทียบกับความเป็นจริงในการใช้งานจริงโดยไม่มีความเสี่ยงจากผู้ใช้ ทั้งสองสิ่งนี้เสริมกัน — เงาเพื่อตรวจสอบพฤติกรรมออฟไลน์แต่ใช้งานได้จริง, นกคานารีเพื่อตรวจสอบผลกระทบต่อผู้ใช้จริง

ข้อมูลเชิงลึกทางเทคนิค

ทั้งสองอย่างนี้อาศัยการกำหนดเส้นทางการรับส่งข้อมูลที่โหลดบาลานเซอร์ เซอร์วิสเมช หรือเลเยอร์แฟล็กคุณลักษณะ Canary แบ่งการรับส่งข้อมูลสดเป็นเปอร์เซ็นต์และต้องมีการตรวจสอบอย่างใกล้ชิด รวมถึงกฎการย้อนกลับอัตโนมัติที่เชื่อมโยงกับเกณฑ์การวัด เงาจะทำซ้ำแต่ละคำขอกับโมเดลใหม่แบบอะซิงโครนัส ดังนั้นจึงไม่เพิ่มเวลาแฝงให้กับเส้นทางของผู้ใช้ และเอาต์พุตของโมเดลใหม่จะถูกบันทึกและเปรียบเทียบ ซึ่งมักจะเทียบกับเอาต์พุตของโมเดลที่ใช้งานจริง แทนที่จะส่งคืน การทดสอบ Shadow ต้องใช้การประมวลผลเพิ่มเติมเนื่องจากคุณรันการอนุมานสองครั้ง

การเรียนรู้การใช้ Canary และ Shadow

การปรับใช้ Canary และ Shadow เป็นกลยุทธ์ที่มีความเสี่ยงต่ำสองประการในการเปิดตัวโมเดลหรือบริการใหม่สู่การใช้งานจริง นกขมิ้นส่งปริมาณข้อมูลจริงเพียงเล็กน้อยไปยังเวอร์ชันใหม่ Shadow จะส่งสำเนาการรับส่งข้อมูลโดยไม่ตอบสนองผู้ใช้ — ดังนั้นทั้งคู่จึงตรวจพบปัญหาก่อนการเปิดตัวเต็มรูปแบบ Canary และ Shadow Deployments เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Canary และ Shadow Deployments เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Canary และ Shadow Deployments จะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการปรับใช้ Canary และ Shadow

ในขณะที่การปรับใช้อัตโนมัติ การวิเคราะห์ Canary กำลังกลายเป็นขั้นตอนที่ต้องลงมือทำ: ไปป์ไลน์จะค่อยๆ เปลี่ยนการรับส่งข้อมูลและเลื่อนระดับอัตโนมัติหรือย้อนกลับอัตโนมัติตามการเปรียบเทียบทางสถิติของตัวชี้วัด โครงข่ายบริการและแพลตฟอร์มต่างๆ นำเสนอรูปแบบเหล่านี้นอกกรอบเพิ่มมากขึ้น สำหรับโมเดลภาษาขนาดใหญ่ การใช้งานเงามีประโยชน์ในการเปรียบเทียบคุณภาพและความปลอดภัยของคำตอบบนการแจ้งเตือนจริงก่อนที่จะเปิดเผยผู้ใช้ และนกคีรีบูนช่วยวัดต้นทุนและเวลาแฝงในวงกว้าง คาดหวังการมีเพศสัมพันธ์ที่แน่นแฟ้นยิ่งขึ้นกับการประเมินออนไลน์และราวกั้น ดังนั้นการถดถอยของคุณภาพจะถูกตรวจจับโดยอัตโนมัติระหว่างการเปิดตัว

การใช้งานจริงในโลกแห่งความเป็นจริง

บริการสตรีมมิ่งกำหนดเส้นทางผู้ใช้ 2% ไปยังโมเดลการแนะนำใหม่ในรูปแบบคานารี ดูเวลาในการดูและอัตราข้อผิดพลาดก่อนที่จะขยายการเปิดตัว

ธนาคารดำเนินการโมเดลการฉ้อโกงในโหมดเงาเป็นเวลาสองสัปดาห์ โดยเปรียบเทียบการแจ้งเตือนกับโมเดลที่ใช้งานอยู่ โดยไม่ส่งผลกระทบต่อการตัดสินใจที่แท้จริงใดๆ

ผู้ค้าปลีกออนไลน์สร้างโมเดลการจัดอันดับการค้นหาใหม่และทริกเกอร์การย้อนกลับอัตโนมัติเมื่ออัตราการคลิกผ่านลดลงต่ำกว่าเกณฑ์

ทีมผู้ช่วย AI ทดสอบเงา LLM ใหม่โดยจำลองการแจ้งเตือนของผู้ใช้จริงและบันทึกคุณภาพคำตอบก่อนที่ลูกค้าจะเห็นการตอบกลับ

รูปแบบการดำเนินงาน

การปรับใช้ Canary และ Shadow ในทางปฏิบัติ

บริการสตรีมมิ่งกำหนดเส้นทางผู้ใช้ 2% ไปยังโมเดลการแนะนำใหม่ในรูปแบบคานารี ดูเวลาในการดูและอัตราข้อผิดพลาดก่อนที่จะขยายการเปิดตัว

บริการสตรีมมิ่งกำหนดเส้นทางผู้ใช้ 2% ไปยังโมเดลการแนะนำใหม่ในฐานะคานารี ดูเวลาในการรับชมและอัตราข้อผิดพลาดก่อนที่จะขยายการเปิดตัว ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การปรับใช้ Canary และ Shadow ในทางปฏิบัติ

ธนาคารดำเนินการโมเดลการฉ้อโกงในโหมดเงาเป็นเวลาสองสัปดาห์ โดยเปรียบเทียบการแจ้งเตือนกับโมเดลที่ใช้งานอยู่ โดยไม่ส่งผลกระทบต่อการตัดสินใจที่แท้จริงใดๆ

ธนาคารดำเนินการโมเดลการฉ้อโกงในโหมดแชโดว์เป็นเวลาสองสัปดาห์ โดยเปรียบเทียบการแจ้งเตือนกับโมเดลที่ใช้งานจริงโดยไม่ส่งผลกระทบต่อการตัดสินใจที่แท้จริง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การปรับใช้ Canary และ Shadow ในทางปฏิบัติ

ผู้ค้าปลีกออนไลน์สร้างโมเดลการจัดอันดับการค้นหาใหม่และทริกเกอร์การย้อนกลับอัตโนมัติเมื่ออัตราการคลิกผ่านลดลงต่ำกว่าเกณฑ์

ผู้ค้าปลีกออนไลน์สร้างโมเดลการจัดอันดับการค้นหาใหม่และทริกเกอร์การย้อนกลับอัตโนมัติเมื่ออัตราการคลิกผ่านลดลงต่ำกว่าเกณฑ์ปกติ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การปรับใช้ Canary และ Shadow ในทางปฏิบัติ

ทีมผู้ช่วย AI ทดสอบเงา LLM ใหม่โดยจำลองการแจ้งเตือนของผู้ใช้จริงและบันทึกคุณภาพคำตอบก่อนที่ลูกค้าจะเห็นการตอบกลับ

ทีมผู้ช่วย AI ทดสอบเงา LLM ใหม่โดยจำลองการแจ้งเตือนของผู้ใช้จริงและบันทึกคุณภาพคำตอบก่อนที่ลูกค้าจะเห็นคำตอบ โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป