คู่มือทางเทคนิค

การเรียนรู้แบบเลียนแบบ

การเรียนรู้ด้วยการเลียนแบบจะสอน AI ให้ทำงานโดยการคัดลอกการสาธิตของผู้เชี่ยวชาญ แทนที่จะเรียนรู้จากการลองผิดลองถูก

ภาพรวม

การเรียนรู้ด้วยการเลียนแบบจะสอน AI ให้ทำงานโดยการคัดลอกการสาธิตของผู้เชี่ยวชาญ แทนที่จะเรียนรู้จากการลองผิดลองถูก เป็นเรื่องสำคัญเพราะสำหรับงานจริงหลายอย่าง เช่น การขับรถ การผ่าตัด การจัดการ การแสดงพฤติกรรมที่ดีนั้นง่ายกว่าการเขียนฟังก์ชันการให้รางวัลมาก

การเรียนรู้แบบเลียนแบบเป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

การเรียนรู้ด้วยการเลียนแบบจะฝึกนโยบายจากตัวอย่างที่บันทึกไว้ของผู้เชี่ยวชาญที่กระทำในสภาพแวดล้อม ซึ่งโดยทั่วไปจะเป็นการจับคู่ข้อสังเกตและการกระทำที่ผู้เชี่ยวชาญทำ รูปแบบที่ง่ายที่สุดคือการโคลนพฤติกรรม ถือเป็นการเรียนรู้แบบมีผู้สอนธรรมดา: ทำนายการกระทำของผู้เชี่ยวชาญตามสถานะ เป็นเรื่องที่น่าดึงดูดเมื่อระบุรางวัลได้ยากแต่มีการสาธิตมากมาย เช่น รถยนต์ไร้คนขับที่ได้รับการฝึกโดยใช้บันทึกการบังคับเลี้ยวของมนุษย์ หรือหุ่นยนต์ที่สอนโดยการทำงานทางไกล จุดอ่อนแบบคลาสสิกคือการเปลี่ยนแปลงการกระจายหรือข้อผิดพลาดแบบทบต้น: ข้อผิดพลาดเล็กน้อยในการคาดการณ์ผลักดันให้ตัวแทนเข้าสู่สถานะที่ผู้เชี่ยวชาญไม่เคยไปเยี่ยม ซึ่งไม่มีคำแนะนำและเคลื่อนออกไปนอกเส้นทาง วิธีการเช่น DAgger แก้ไขปัญหานี้โดยการสอบถามผู้เชี่ยวชาญซ้ำแล้วซ้ำเล่าเกี่ยวกับสถานะที่ผู้เรียนเข้าถึงจริง

ข้อมูลเชิงลึกทางเทคนิค

การโคลนนิ่งเชิงพฤติกรรมช่วยลดการสูญเสียภายใต้การดูแลระหว่างการกระทำที่คาดการณ์ไว้และการกระทำที่แสดงให้เห็น แต่จะถือว่าสถานะมีความเป็นอิสระและมีการกระจายเหมือนกัน - เท็จในการควบคุมตามลำดับ DAgger (การรวมชุดข้อมูล) ทำลายสมมติฐานนี้ด้วยการเปิดตัวนโยบายปัจจุบันซ้ำๆ โดยขอให้ผู้เชี่ยวชาญติดป้ายกำกับสถานะที่เยี่ยมชม และฝึกอบรมชุดข้อมูลที่รวบรวมที่กำลังเติบโตอีกครั้ง ช่วยให้ข้อมูลการฝึกอบรมสอดคล้องกับการกระจายสถานะของผู้เรียนเอง ซึ่งช่วยลดข้อผิดพลาดในการประนอมในระยะยาวได้อย่างมาก

การเรียนรู้การเลียนแบบอย่างเชี่ยวชาญ

การเรียนรู้ด้วยการเลียนแบบจะสอน AI ให้ทำงานโดยการคัดลอกการสาธิตของผู้เชี่ยวชาญ แทนที่จะเรียนรู้จากการลองผิดลองถูก เป็นเรื่องสำคัญเพราะสำหรับงานจริงหลายอย่าง เช่น การขับรถ การผ่าตัด การจัดการ การแสดงพฤติกรรมที่ดีนั้นง่ายกว่าการเขียนฟังก์ชันการให้รางวัลมาก การเรียนรู้แบบเลียนแบบเป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าการเรียนรู้ด้วยการเลียนแบบเป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Imitation Learning จะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการเรียนรู้แบบเลียนแบบ

การเรียนรู้ด้วยการเลียนแบบเป็นศูนย์กลางของการเพิ่มขึ้นของโมเดลรากฐานหุ่นยนต์ โดยนโยบายเดียวจะได้รับการฝึกอบรมบนชุดข้อมูลการทำงานระยะไกลแบบหลายงานขนาดใหญ่ และได้รับการปรับแต่งสำหรับทักษะใหม่ ๆ คาดหวังการผสมผสานที่แน่นแฟ้นยิ่งขึ้นกับภาษาและการมองเห็น ดังนั้นหุ่นยนต์จึงเลียนแบบจากวิดีโอหรือคำแนะนำ รวมถึงไฮบริดที่เริ่มต้นด้วยการโคลนนิ่ง จากนั้นปรับแต่งผ่านการเรียนรู้แบบเสริมกำลัง การปรับขนาดการรวบรวมการสาธิตในราคาถูกผ่านการจำลองและข้อมูลการเล่นของมนุษย์ที่รวบรวมจากมวลชน ยังคงเป็นปัญหาคอขวดที่สำคัญและพรมแดนที่กระตือรือร้น

การใช้งานจริงในโลกแห่งความเป็นจริง

โมเดลการรับรู้ถึงการบังคับเลี้ยวของรถยนต์ไร้คนขับที่ได้รับการฝึกเกี่ยวกับการขับขี่โดยมนุษย์ที่เข้าสู่ระบบ

แขนหุ่นยนต์เรียนรู้การพับผ้าหรือซ้อนสิ่งของจากการสาธิตแบบเคลื่อนย้ายได้

เอเจนต์การเล่นเกมจะบู๊ตจากรีเพลย์ของมนุษย์ที่บันทึกไว้ ก่อนที่จะปรับแต่งด้วย RL

หุ่นยนต์ผ่าตัดและหุ่นยนต์ช่วยเหลือเรียนรู้การเคลื่อนไหวจากการสาธิตโดยผู้ปฏิบัติงานโดยผู้เชี่ยวชาญ

รูปแบบการดำเนินงาน

การเรียนรู้แบบเลียนแบบในทางปฏิบัติ

โมเดลการรับรู้ถึงการบังคับเลี้ยวของรถยนต์ไร้คนขับที่ได้รับการฝึกเกี่ยวกับการขับขี่โดยมนุษย์ที่เข้าสู่ระบบ

โมเดลการรับรู้ถึงการบังคับเลี้ยวของรถยนต์ไร้คนขับที่ได้รับการฝึกอบรมเกี่ยวกับการขับขี่โดยมนุษย์ที่บันทึกไว้ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การเรียนรู้แบบเลียนแบบในทางปฏิบัติ

แขนหุ่นยนต์เรียนรู้การพับผ้าหรือซ้อนสิ่งของจากการสาธิตแบบเคลื่อนย้ายได้

แขนหุ่นยนต์เรียนรู้การพับผ้าหรือซ้อนสิ่งของจากการสาธิตแบบเคลื่อนย้ายระยะไกล ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อกำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณีขอบ และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การเรียนรู้แบบเลียนแบบในทางปฏิบัติ

เอเจนต์การเล่นเกมจะบู๊ตจากรีเพลย์ของมนุษย์ที่บันทึกไว้ ก่อนที่จะปรับแต่งด้วย RL

เอเจนต์การเล่นเกมที่บูตเครื่องจากการเล่นซ้ำของมนุษย์ที่บันทึกไว้ก่อนที่จะปรับแต่งด้วยทีม RL มักจะได้รับผลลัพธ์ที่ดีกว่า เมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การเรียนรู้แบบเลียนแบบในทางปฏิบัติ

หุ่นยนต์ผ่าตัดและหุ่นยนต์ช่วยเหลือเรียนรู้การเคลื่อนไหวจากการสาธิตโดยผู้ปฏิบัติงานโดยผู้เชี่ยวชาญ

หุ่นยนต์ผ่าตัดและหุ่นยนต์ช่วยเหลือการเรียนรู้การเคลื่อนไหวจากการสาธิตของผู้ปฏิบัติงานที่เชี่ยวชาญ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อกำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป