คู่มือพื้นฐาน

การเรียนรู้การเสริมกำลังแบบหลายตัวแทน

Multi-Agent Reinforcement Learning (MARL) ฝึกตัวแทนการเรียนรู้หลายรายที่มีสภาพแวดล้อมเหมือนกัน โดยแต่ละตัวแทนจะปรับพฤติกรรมของตนในขณะที่ตัวแทนอื่นๆ ก็ปรับตัวด้วยเช่นกัน

ภาพรวม

Multi-Agent Reinforcement Learning (MARL) ฝึกตัวแทนการเรียนรู้หลายรายที่มีสภาพแวดล้อมเหมือนกัน โดยแต่ละตัวแทนจะปรับพฤติกรรมของตนในขณะที่ตัวแทนอื่นๆ ก็ปรับตัวด้วยเช่นกัน สิ่งสำคัญคือปัญหาในโลกแห่งความเป็นจริงส่วนใหญ่ เช่น การจราจร ตลาด ทีมหุ่นยนต์ เกี่ยวข้องกับผู้มีอำนาจตัดสินใจหลายคน ไม่ใช่คนเดียว

การเรียนรู้การเสริมกำลังแบบหลายตัวแทนอยู่ในชุดเครื่องมือ AI หลัก เมื่อคุณเข้าใจ หัวข้อ AI อื่นๆ จะประเมินและเปรียบเทียบได้ง่ายขึ้น

เจาะลึก

ในการเรียนรู้การเสริมกำลังแบบตัวแทนเดี่ยว ตัวแทนคนหนึ่งจะเรียนรู้นโยบายโดยการเพิ่มรางวัลสูงสุดในสภาพแวดล้อมที่ตายตัว MARL เพิ่มเจ้าหน้าที่มากขึ้น และนั่นทำให้ทุกอย่างเปลี่ยนแปลง: จากมุมมองของเจ้าหน้าที่แต่ละราย สภาพแวดล้อมจะไม่นิ่งเนื่องจากตัวแทนคนอื่นๆ คอยเปลี่ยนแปลงนโยบายของตนอยู่ตลอดเวลา เอเจนต์สามารถร่วมมือกันได้ (แบ่งปันรางวัลให้กับทีม เช่น หุ่นยนต์เล่นฟุตบอล) การแข่งขัน (ผลรวมเป็นศูนย์ เช่น โป๊กเกอร์หรือการไล่ตาม) หรือผสมกันก็ได้ นักวิจัยใช้รูปแบบที่เป็นทางการ เช่น เกมมาร์คอฟ (เกมสุ่ม) ที่สรุปกระบวนการตัดสินใจของมาร์คอฟตัวแทนเดี่ยว ผลลัพธ์อันโด่งดัง ได้แก่ AlphaStar ของ DeepMind เข้าถึงระดับปรมาจารย์ใน StarCraft II และ OpenAI ทีม Dota 2 มืออาชีพที่เอาชนะห้าทีม ทั้งสองทีมอาศัยจำนวนตัวแทนที่ได้รับการฝึกฝนซึ่งกันและกันผ่านการเล่นด้วยตนเอง

ข้อมูลเชิงลึกทางเทคนิค

ความท้าทายหลักคือการไม่อยู่กับที่ เนื่องจากตัวแทนทุกรายอัปเดตนโยบายของตน ตัวแทนรายอื่นๆ ต้องเผชิญกับเป้าหมายที่เคลื่อนไหว ดังนั้นการเรียนรู้อย่างอิสระที่ไร้เดียงสาจึงอาจล้มเหลวในการมาบรรจบกัน การแก้ไขที่ได้รับความนิยมคือการฝึกอบรมแบบรวมศูนย์ด้วยการดำเนินการแบบกระจายอำนาจ (CTDE) ซึ่งใช้โดยอัลกอริธึมเช่น MADDPG และ QMIX ในระหว่างการฝึกอบรม นักวิจารณ์มองเห็นการสังเกตและการดำเนินการของตัวแทนทั้งหมดเพื่อคำนวณการไล่ระดับสีที่เสถียร แต่ในการปรับใช้ เจ้าหน้าที่แต่ละรายจะดำเนินการโดยใช้การสังเกตเฉพาะที่ของตนเองเท่านั้น ผสมผสานการเรียนรู้แบบประสานงานเข้ากับการปฏิบัติงานที่เป็นอิสระและใช้งานได้จริง

การเรียนรู้การเรียนรู้การเสริมกำลังแบบหลายตัวแทน

Multi-Agent Reinforcement Learning (MARL) ฝึกตัวแทนการเรียนรู้หลายรายที่มีสภาพแวดล้อมเหมือนกัน โดยแต่ละตัวแทนจะปรับพฤติกรรมของตนในขณะที่ตัวแทนอื่นๆ ก็ปรับตัวด้วยเช่นกัน สิ่งสำคัญคือปัญหาในโลกแห่งความเป็นจริงส่วนใหญ่ เช่น การจราจร ตลาด ทีมหุ่นยนต์ เกี่ยวข้องกับผู้มีอำนาจตัดสินใจหลายคน ไม่ใช่คนเดียว การเรียนรู้การเสริมกำลังแบบหลายตัวแทนอยู่ในชุดเครื่องมือ AI หลัก เมื่อคุณเข้าใจ หัวข้อ AI อื่นๆ จะประเมินและเปรียบเทียบได้ง่ายขึ้น เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าการเรียนรู้แบบเสริมกำลังแบบหลายตัวแทนเป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้การเรียนรู้การเสริมกำลังแบบหลายตัวแทนจะสร้างแบบจำลองแนวความคิดที่แข็งแกร่งก่อน จากนั้นจึงแมปแบบจำลองเหล่านั้นกับข้อจำกัดในการผลิตจริง โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้ ในเวลาเดียวกัน ทีมต่างๆ อาจใช้คำเดียวกันต่างกัน ดังนั้นควรกำหนดขอบเขตตั้งแต่เนิ่นๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

คุณสามารถถามคำถามการใช้งานที่ดีขึ้นก่อนที่จะใช้เงินหรือเวลา

คุณสามารถถามคำถามการใช้งานที่ดีขึ้นก่อนที่จะใช้เงินหรือเวลา ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมที่มีความเข้าใจร่วมกันจะตัดสินใจเกี่ยวกับผลิตภัณฑ์ นโยบาย และการเรียนรู้ได้ดีขึ้น

ทีมที่มีความเข้าใจร่วมกันจะตัดสินใจเกี่ยวกับผลิตภัณฑ์ นโยบาย และการเรียนรู้ได้ดีขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการเรียนรู้การเสริมกำลังแบบหลายตัวแทน

MARL กำลังเคลื่อนไปสู่ระบบที่ใหญ่ขึ้นและเปิดกว้างมากขึ้น ซึ่งเจ้าหน้าที่เข้าและออก และมุ่งสู่ทีมของตัวแทนที่ใช้ LLM ที่เจรจา มอบหมาย และใช้เครื่องมือร่วมกัน คาดหวังความคืบหน้าในการมอบหมายเครดิตที่ปรับขนาดได้ (ผู้ที่สมควรได้รับรางวัลในทีมใหญ่) โปรโตคอลการสื่อสารที่เกิดขึ้น และการรับประกันความปลอดภัยสำหรับตัวแทนที่แข่งขันกัน ในขณะที่ยานพาหนะที่ขับเคลื่อนอัตโนมัติ โครงข่ายพลังงาน และระบบการซื้อขายมีปฏิสัมพันธ์กันมากขึ้น การประสานงานหลายตัวแทนที่แข็งแกร่ง และการหลีกเลี่ยงการสมรู้ร่วมคิดหรือวงจรป้อนกลับที่ไม่เสถียร กลายเป็นข้อกังวลหลักในทางปฏิบัติและด้านกฎระเบียบ

การใช้งานจริงในโลกแห่งความเป็นจริง

การประสานงานกลุ่มหุ่นยนต์ในคลังสินค้าเพื่อกำหนดเส้นทางพัสดุโดยไม่ชนกันหรือหยุดชะงักในทางเดิน

การควบคุมสัญญาณไฟจราจรโดยแต่ละทางแยกเป็นตัวแทนการเรียนรู้เพื่อลดความแออัดทั่วเมือง

ฝึกฝนเกม AI เช่น OpenAI Five (Dota 2) และ AlphaStar (StarCraft II) ผ่านการเล่นด้วยตนเองท่ามกลางตัวแทนมากมาย

การจัดการการเสนอราคาและการตอบสนองความต้องการระหว่างแบตเตอรี่แบบกระจายและบ้านในระบบโครงข่ายไฟฟ้าอัจฉริยะ

รูปแบบการดำเนินงาน

การเรียนรู้การเสริมกำลังแบบหลายตัวแทนในทางปฏิบัติ

การประสานงานกลุ่มหุ่นยนต์ในคลังสินค้าเพื่อกำหนดเส้นทางพัสดุโดยไม่ชนกันหรือหยุดชะงักในทางเดิน

การประสานงานกลุ่มหุ่นยนต์ในคลังสินค้าเพื่อให้พวกเขากำหนดเส้นทางพัสดุโดยไม่ชนกันหรือหยุดชะงักในทางเดิน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การเรียนรู้การเสริมกำลังแบบหลายตัวแทนในทางปฏิบัติ

การควบคุมสัญญาณไฟจราจรโดยแต่ละทางแยกเป็นตัวแทนการเรียนรู้เพื่อลดความแออัดทั่วเมือง

การควบคุมสัญญาณไฟจราจรโดยที่ทางแยกแต่ละจุดเป็นตัวแทนการเรียนรู้เพื่อลดความแออัดทั่วเมือง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การเรียนรู้การเสริมกำลังแบบหลายตัวแทนในทางปฏิบัติ

ฝึกฝนเกม AI เช่น OpenAI Five (Dota 2) และ AlphaStar (StarCraft II) ผ่านการเล่นด้วยตนเองท่ามกลางตัวแทนมากมาย

เกมฝึกฝน AI เช่น OpenAI Five (Dota 2) และ AlphaStar (StarCraft II) ผ่านการเล่นด้วยตนเองกับตัวแทนหลายๆ คน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การเรียนรู้การเสริมกำลังแบบหลายตัวแทนในทางปฏิบัติ

การจัดการการเสนอราคาและการตอบสนองความต้องการระหว่างแบตเตอรี่แบบกระจายและบ้านในระบบโครงข่ายไฟฟ้าอัจฉริยะ

การจัดการการเสนอราคาและการตอบสนองความต้องการระหว่างแบตเตอรี่แบบกระจายและบ้านในโครงข่ายไฟฟ้าอัจฉริยะ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

แต่ละทีมอาจใช้คำเดียวกันต่างกัน ดังนั้นควรกำหนดขอบเขตตั้งแต่เนิ่นๆ

!

เกณฑ์มาตรฐานอาจดูแข็งแกร่งในขณะที่ประสิทธิภาพในโลกแห่งความเป็นจริงไม่เท่ากัน

!

การเพิกเฉยต่อคุณภาพข้อมูลและแผนการประเมินมักสร้างผลลัพธ์ที่เปราะบาง

แผนงานการดำเนินงาน

1

เริ่มต้นด้วยคำจำกัดความภาษาธรรมดาของผลลัพธ์ที่คุณต้องการ

เริ่มต้นด้วยคำจำกัดความภาษาธรรมดาของผลลัพธ์ที่คุณต้องการ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เลือกเมตริกวัดความสำเร็จหนึ่งรายการและเงื่อนไขความล้มเหลวหนึ่งรายการก่อนการทดสอบ

เลือกเมตริกวัดความสำเร็จหนึ่งรายการและเงื่อนไขความล้มเหลวหนึ่งรายการก่อนการทดสอบ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

ดำเนินการนำร่องขนาดเล็กด้วยข้อมูลตัวแทน ไม่ใช่ชุดสาธิตที่สวยงาม

ดำเนินการนำร่องขนาดเล็กด้วยข้อมูลตัวแทน ไม่ใช่ชุดสาธิตที่สวยงาม ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เอกสารที่การเรียนรู้การเสริมกำลังแบบหลายตัวแทนช่วยได้ และวิธีที่ง่ายกว่าจะดีกว่า

เอกสารที่การเรียนรู้การเสริมกำลังแบบหลายตัวแทนช่วยได้ และวิธีที่ง่ายกว่าจะดีกว่า ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป