คู่มือทางเทคนิค

Kubeflow และ ML Pipeline Orchestration

Kubeflow เป็นชุดเครื่องมือโอเพ่นซอร์สที่เรียกใช้เวิร์กโฟลว์แมชชีนเลิร์นนิงบน Kubernetes โดยเปลี่ยนการฝึกอบรมโมเดลและการปรับใช้ให้เป็นไปป์ไลน์แบบคอนเทนเนอร์ที่ทำซ้ำได้

ภาพรวม

Kubeflow เป็นชุดเครื่องมือโอเพ่นซอร์สที่เรียกใช้เวิร์กโฟลว์แมชชีนเลิร์นนิงบน Kubernetes โดยเปลี่ยนการฝึกอบรมโมเดลและการปรับใช้ให้เป็นไปป์ไลน์แบบคอนเทนเนอร์ที่ทำซ้ำได้ สิ่งสำคัญคือช่วยให้ทีมปรับขนาด ML ได้ในลักษณะเดียวกับที่พวกเขาปรับขนาดซอฟต์แวร์ระบบคลาวด์สมัยใหม่

Kubeflow และ ML Pipeline Orchestration เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

Kubeflow เริ่มต้นที่ Google เพื่อเป็นวิธีเรียกใช้ TensorFlow บน Kubernetes จากนั้นจึงขยายเป็นแพลตฟอร์มที่กว้างขึ้น แนวคิดหลักคือแต่ละขั้นตอนของเวิร์กโฟลว์ ML เช่น การเตรียมข้อมูล การฝึกอบรม การประเมิน และการให้บริการจะทำงานเป็นส่วนประกอบในคอนเทนเนอร์ภายในพ็อด Kubernetes Kubeflow Pipelines (KFP) ช่วยให้คุณแสดงขั้นตอนเหล่านี้เป็นกราฟอะไซคลิกโดยตรง (DAG) โดยแต่ละโหนดเป็นคอนเทนเนอร์ในตัวเอง และ Edge จะกำหนดการขึ้นต่อกันของข้อมูล เนื่องจาก Kubernetes จัดการการกำหนดเวลา การปรับขนาด และการจัดสรรทรัพยากร ไปป์ไลน์จึงสามารถขอ GPU สำหรับการฝึกและปล่อยในภายหลัง ส่วนประกอบอื่นๆ ได้แก่ Katib สำหรับการปรับแต่งไฮเปอร์พารามิเตอร์ KServe สำหรับการให้บริการโมเดล และเซิร์ฟเวอร์โน้ตบุ๊ก ผลตอบแทนที่ได้คือความสามารถในการทำซ้ำ ความสามารถในการพกพาข้ามคลาวด์ และความสามารถในการปรับขนาดแต่ละขั้นตอนอย่างเป็นอิสระ

ข้อมูลเชิงลึกทางเทคนิค

ไปป์ไลน์ Kubeflow รวบรวม Python DSL ให้เป็นข้อมูลจำเพาะ YAML ของ Argo Workflows แต่ละส่วนประกอบจะกลายเป็นคอนเทนเนอร์ที่อ่านอินพุตและเขียนเอาต์พุตเป็นอาร์ติแฟกต์ ซึ่งส่งผ่านระหว่างขั้นตอนผ่านที่เก็บอ็อบเจ็กต์ที่ใช้ร่วมกัน เช่น MinIO หรือ S3 Kubernetes กำหนดเวลาแต่ละพ็อด โดยแนบทรัพยากร GPU หรือ CPU ตามคำขอของส่วนประกอบ เครื่องบินควบคุมแคชเอาต์พุตขั้นตอน ดังนั้นขั้นตอนที่ไม่มีการเปลี่ยนแปลงจะถูกข้ามไปในการรันซ้ำ ช่วยประหยัดการคำนวณและทำให้ DAG ขนาดใหญ่มีประสิทธิภาพ

การเรียนรู้ Kubeflow และ ML Pipeline Orchestration

Kubeflow เป็นชุดเครื่องมือโอเพ่นซอร์สที่เรียกใช้เวิร์กโฟลว์แมชชีนเลิร์นนิงบน Kubernetes โดยเปลี่ยนการฝึกอบรมโมเดลและการปรับใช้ให้เป็นไปป์ไลน์แบบคอนเทนเนอร์ที่ทำซ้ำได้ สิ่งสำคัญคือช่วยให้ทีมปรับขนาด ML ได้ในลักษณะเดียวกับที่พวกเขาปรับขนาดซอฟต์แวร์ระบบคลาวด์สมัยใหม่ Kubeflow และ ML Pipeline Orchestration เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Kubeflow และ ML Pipeline Orchestration เป็นโมเดลการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Kubeflow และ ML Pipeline Orchestration จะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของ Kubeflow และ ML Pipeline Orchestration

Kubeflow กำลังรวม KFP v2 เข้าด้วยกันและการผสานรวมที่เข้มงวดยิ่งขึ้นกับ KServe สำหรับการให้บริการและ Katib สำหรับการปรับแต่ง พร้อมการสนับสนุนที่ดีกว่าสำหรับการฝึกอบรมแบบกระจายของโมเดลขนาดใหญ่ใน GPU จำนวนมาก คาดว่าจะมีการเชื่อมโยงที่ลึกยิ่งขึ้นในร้านค้าฟีเจอร์ การลงทะเบียนโมเดล และเวิร์กโฟลว์การปรับแต่ง LLM เมื่อโปรเจ็กต์เติบโตภายใต้ CNCF แนวโน้มก็จะไปสู่การติดตั้งที่ง่ายขึ้น การเช่าหลายรายการสำหรับทีม และคำจำกัดความไปป์ไลน์ที่ได้มาตรฐานซึ่งพอร์ตข้ามผู้ให้บริการคลาวด์ภายในองค์กรและผู้ให้บริการคลาวด์รายใหญ่ได้อย่างหมดจด

การใช้งานจริงในโลกแห่งความเป็นจริง

ผู้ค้าปลีกกำหนดเวลาไปป์ไลน์ Kubeflow ทุกคืนที่นำเข้าข้อมูลการขาย ฝึกโมเดลการคาดการณ์ความต้องการใหม่ และพุชไปที่ KServe เพื่อการอนุมาน

ห้องปฏิบัติการวิจัยใช้ Katib เพื่อรันการทดลองไฮเปอร์พารามิเตอร์แบบขนานหลายร้อยรายการบนคลัสเตอร์ GPU โดยจะเลือกการกำหนดค่าที่ดีที่สุดโดยอัตโนมัติ

ธนาคารสร้างไปป์ไลน์การตรวจจับการฉ้อโกงที่ทำซ้ำได้ โดยที่การตรวจสอบการปฏิบัติตามข้อกำหนดแต่ละรายการสามารถรันขั้นตอนการฝึกอบรมที่แน่นอนอีกครั้งจากอาร์ติแฟกต์ที่แคชไว้

สตาร์ทอัพใช้เซิร์ฟเวอร์โน้ตบุ๊กบน Kubeflow ดังนั้นนักวิทยาศาสตร์ข้อมูลต้นแบบโมเดลที่สำเร็จการศึกษาโดยตรงไปยังไปป์ไลน์การผลิตโดยไม่ต้องเขียนโค้ดใหม่

รูปแบบการดำเนินงาน

Kubeflow และ ML Pipeline Orchestration ในทางปฏิบัติ

ผู้ค้าปลีกกำหนดเวลาไปป์ไลน์ Kubeflow ทุกคืนที่นำเข้าข้อมูลการขาย ฝึกโมเดลการคาดการณ์ความต้องการใหม่ และพุชไปที่ KServe เพื่อการอนุมาน

ผู้ค้าปลีกกำหนดเวลาไปป์ไลน์ Kubeflow ทุกคืนที่นำเข้าข้อมูลการขาย ฝึกโมเดลการคาดการณ์ความต้องการอีกครั้ง และผลักดันไปที่ KServe เพื่อการอนุมาน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Kubeflow และ ML Pipeline Orchestration ในทางปฏิบัติ

ห้องปฏิบัติการวิจัยใช้ Katib เพื่อรันการทดลองไฮเปอร์พารามิเตอร์แบบขนานหลายร้อยรายการบนคลัสเตอร์ GPU โดยจะเลือกการกำหนดค่าที่ดีที่สุดโดยอัตโนมัติ

ห้องปฏิบัติการวิจัยใช้ Katib เพื่อดำเนินการทดลองไฮเปอร์พารามิเตอร์แบบคู่ขนานหลายร้อยรายการบนคลัสเตอร์ GPU โดยเลือกการกำหนดค่าที่ดีที่สุดโดยอัตโนมัติ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Kubeflow และ ML Pipeline Orchestration ในทางปฏิบัติ

ธนาคารสร้างไปป์ไลน์การตรวจจับการฉ้อโกงที่ทำซ้ำได้ โดยที่การตรวจสอบการปฏิบัติตามข้อกำหนดแต่ละรายการสามารถรันขั้นตอนการฝึกอบรมที่แน่นอนอีกครั้งจากอาร์ติแฟกต์ที่แคชไว้

ธนาคารสร้างขั้นตอนการตรวจจับการฉ้อโกงที่ทำซ้ำได้ ซึ่งการตรวจสอบการปฏิบัติตามกฎระเบียบแต่ละรายการสามารถเรียกใช้ขั้นตอนการฝึกอบรมที่แน่นอนจากอาร์ติแฟกต์ที่แคชไว้อีกครั้ง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Kubeflow และ ML Pipeline Orchestration ในทางปฏิบัติ

สตาร์ทอัพใช้เซิร์ฟเวอร์โน้ตบุ๊กบน Kubeflow ดังนั้นนักวิทยาศาสตร์ข้อมูลต้นแบบโมเดลที่สำเร็จการศึกษาโดยตรงไปยังไปป์ไลน์การผลิตโดยไม่ต้องเขียนโค้ดใหม่

สตาร์ทอัพใช้เซิร์ฟเวอร์โน้ตบุ๊กบน Kubeflow ดังนั้นนักวิทยาศาสตร์ข้อมูลต้นแบบโมเดลที่สำเร็จการศึกษาโดยตรงไปยังไปป์ไลน์การผลิตโดยไม่ต้องเขียนโค้ดใหม่ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป