คู่มือทางเทคนิค

การทดสอบ A/B สำหรับโมเดล ML

การทดสอบ A/B สำหรับโมเดล ML หมายถึงการกำหนดเส้นทางการรับส่งข้อมูลสดไปยังโมเดลสองเวอร์ชันพร้อมกัน และการวัดว่าเวอร์ชันใดทำงานได้ดีกว่ากับผู้ใช้จริงและผลลัพธ์จริง

ภาพรวม

การทดสอบ A/B สำหรับโมเดล ML หมายถึงการกำหนดเส้นทางการรับส่งข้อมูลสดไปยังโมเดลสองเวอร์ชันพร้อมกัน และการวัดว่าเวอร์ชันใดทำงานได้ดีกว่ากับผู้ใช้จริงและผลลัพธ์จริง สิ่งสำคัญคือเนื่องจากตัววัดความแม่นยำแบบออฟไลน์มักจะไม่สามารถคาดการณ์ผลกระทบทางธุรกิจได้ ดังนั้นการทดสอบที่ตรงไปตรงมาเพียงอย่างเดียวคือการทดสอบที่มีการควบคุมในการผลิต

การทดสอบ A/B สำหรับโมเดล ML เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

โมเดลออฟไลน์อาจดูดี — AUC สูงกว่า ข้อผิดพลาดน้อยกว่า — แต่ยังคงส่งผลเสียต่อการวัดผลที่คุณสนใจ เช่น รายได้หรือการรักษาลูกค้า การทดสอบ A/B แก้ปัญหานี้โดยการสุ่มแบ่งผู้ใช้ออกเป็นกลุ่มควบคุมที่ให้บริการโดยโมเดลที่มีอยู่ (A) และกลุ่มบำบัดที่ให้บริการโดยโมเดลผู้สมัคร (B) จากนั้นจึงเปรียบเทียบตัวชี้วัดความสำเร็จที่เลือก การสุ่มช่วยให้มั่นใจว่ากลุ่มต่างๆ สามารถเปรียบเทียบกันได้ ดังนั้นความแตกต่างใดๆ ก็สามารถนำมาประกอบกับแบบจำลองได้ ทีมใช้การทดสอบสมมติฐานทางสถิติเพื่อตัดสินใจว่าช่องว่างที่สังเกตได้นั้นเป็นของจริงหรือเป็นเพียงสัญญาณรบกวน โดยตั้งค่าระดับนัยสำคัญ (มักจะ 5%) และคำนวณขนาดตัวอย่างที่จำเป็นสำหรับพลังทางสถิติที่เพียงพอ เทคนิคที่เกี่ยวข้อง ได้แก่ การเผยแพร่ canary โดยที่ปริมาณข้อมูลเพียงเล็กน้อยลองใช้โมเดลใหม่ก่อน และการทดสอบเงา โดยที่โมเดลใหม่ให้คะแนนคำขอโดยไม่กระทบต่อผู้ใช้

ข้อมูลเชิงลึกทางเทคนิค

แกนกลางคือการทดสอบสมมติฐาน สมมติฐานว่างบอกว่าทั้งสองรุ่นมีประสิทธิภาพเท่าเทียมกัน คุณจะปฏิเสธก็ต่อเมื่อความแตกต่างมีนัยสำคัญทางสถิติเมื่อพิจารณาจากความแปรปรวนและขนาดตัวอย่าง ค่า p ต่ำกว่าเกณฑ์ของคุณ (เช่น 0.05) แสดงว่าผลลัพธ์ไม่น่าเป็นไปได้ภายใต้โอกาสที่แท้จริง การวิเคราะห์พลังงานล่วงหน้าจะบอกคุณว่ามีผู้ใช้จำนวนเท่าใดที่คุณต้องการเพื่อตรวจจับผลลัพธ์ที่มีความหมายได้อย่างน่าเชื่อถือ การปรับปรุงที่คาดหวังเล็กน้อยต้องใช้ตัวอย่างที่ใหญ่ขึ้นเพื่อยืนยัน

เชี่ยวชาญการทดสอบ A/B สำหรับโมเดล ML

การทดสอบ A/B สำหรับโมเดล ML หมายถึงการกำหนดเส้นทางการรับส่งข้อมูลสดไปยังโมเดลสองเวอร์ชันพร้อมกัน และการวัดว่าเวอร์ชันใดทำงานได้ดีกว่ากับผู้ใช้จริงและผลลัพธ์จริง สิ่งสำคัญคือเนื่องจากตัววัดความแม่นยำแบบออฟไลน์มักจะไม่สามารถคาดการณ์ผลกระทบทางธุรกิจได้ ดังนั้นการทดสอบที่ตรงไปตรงมาเพียงอย่างเดียวคือการทดสอบที่มีการควบคุมในการผลิต การทดสอบ A/B สำหรับโมเดล ML เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าการทดสอบ A/B สำหรับโมเดล ML เป็นเพียงโมเดลการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้การทดสอบ A/B สำหรับโมเดล ML จะปรับตัวเลือกสถาปัตยกรรม ข้อมูล และโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการทดสอบ A/B สำหรับโมเดล ML

การทดลองกำลังมุ่งสู่การจัดสรรการรับส่งข้อมูลที่ชาญฉลาดยิ่งขึ้น อัลกอริธึมแบบ Multi-armed bandit จะเปลี่ยนการรับส่งข้อมูลไปยังโมเดลที่มีประสิทธิภาพดีกว่าแบบไดนามิกในขณะที่ทำการทดสอบ ซึ่งจะช่วยลดต้นทุนในการให้บริการโมเดลที่แย่กว่า คาดว่าจะมีตัววัดรั้วอัตโนมัติมากขึ้น ซึ่งจะหยุดการทดลองหากแบบจำลองส่งผลเสียต่อความปลอดภัยหรือความเป็นธรรม การทดสอบตามลำดับที่ช่วยให้ทีมดูผลลัพธ์ได้โดยไม่เพิ่มผลบวกลวง และแพลตฟอร์มที่จัดการการทดลอง ML ที่ทับซ้อนกันจำนวนมากในคราวเดียว

การใช้งานจริงในโลกแห่งความเป็นจริง

บริการสตรีมมิ่ง A/B ทดสอบโมเดลการแนะนำใหม่ โดยวัดเวลาในการรับชมต่อผู้ใช้ แทนที่จะวัดความแม่นยำของการจัดอันดับออฟไลน์

ไซต์อีคอมเมิร์ซปล่อยโมเดลการจัดอันดับการค้นหาใหม่แก่ 5% ของการเข้าชมก่อนที่จะเปิดตัวเต็มรูปแบบ

เงาของธนาคารจะทดสอบโมเดลการฉ้อโกงใหม่แบบคู่ขนาน โดยเปรียบเทียบการแจ้งเตือนกับโมเดลที่ใช้งานจริงโดยไม่ปิดกั้นธุรกรรมใดๆ

แอปเรียกรถโดยสารใช้ระบบโจรกรรมหลายช่องทางเพื่อกำหนดเส้นทางคำขอระหว่างโมเดลการกำหนดราคา โดยเลือกโมเดลที่ขับรถยนต์ที่สมบูรณ์กว่า

รูปแบบการดำเนินงาน

การทดสอบ A/B สำหรับโมเดล ML ในทางปฏิบัติ

บริการสตรีมมิ่ง A/B ทดสอบโมเดลการแนะนำใหม่ โดยวัดเวลาในการรับชมต่อผู้ใช้ แทนที่จะวัดความแม่นยำของการจัดอันดับออฟไลน์

บริการสตรีมมิ่ง A/B ทดสอบโมเดลการแนะนำใหม่ โดยวัดเวลาในการดูต่อผู้ใช้มากกว่าความแม่นยำในการจัดอันดับแบบออฟไลน์ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การทดสอบ A/B สำหรับโมเดล ML ในทางปฏิบัติ

ไซต์อีคอมเมิร์ซปล่อยโมเดลการจัดอันดับการค้นหาใหม่แก่ 5% ของการเข้าชมก่อนที่จะเปิดตัวเต็มรูปแบบ

ไซต์อีคอมเมิร์ซปล่อยโมเดลการจัดอันดับการค้นหาใหม่ให้กับ 5% ของปริมาณการใช้งานก่อนการเปิดตัวเต็มรูปแบบ ทีมมักจะได้รับผลลัพธ์ที่ดีขึ้นเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การทดสอบ A/B สำหรับโมเดล ML ในทางปฏิบัติ

เงาของธนาคารจะทดสอบโมเดลการฉ้อโกงใหม่แบบคู่ขนาน โดยเปรียบเทียบการแจ้งเตือนกับโมเดลที่ใช้งานจริงโดยไม่ปิดกั้นธุรกรรมใดๆ

เงาของธนาคารทดสอบโมเดลการฉ้อโกงใหม่พร้อมกัน โดยเปรียบเทียบการแจ้งเตือนกับโมเดลที่ใช้งานจริงโดยไม่ปิดกั้นธุรกรรมใดๆ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การทดสอบ A/B สำหรับโมเดล ML ในทางปฏิบัติ

แอปเรียกรถโดยสารใช้ระบบโจรกรรมหลายช่องทางเพื่อกำหนดเส้นทางคำขอระหว่างโมเดลการกำหนดราคา โดยเลือกโมเดลที่ขับรถยนต์ที่สมบูรณ์กว่า

แอปเรียกรถโดยสารใช้ระบบโจรกรรมแบบหลายช่องทางเพื่อกำหนดเส้นทางคำขอระหว่างโมเดลการกำหนดราคา โดยเลือกแบบที่ขับเคลื่อนการเดินทางที่สมบูรณ์มากกว่า ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป