คู่มือพื้นฐาน

แบบจำลองโลกและแบบจำลองการเรียนรู้

แบบจำลองโลกคือโครงข่ายประสาทเทียมที่เรียนรู้ที่จะคาดการณ์ว่าสภาพแวดล้อมเปลี่ยนแปลงไปอย่างไรเมื่อเวลาผ่านไป โดยปล่อยให้ AI 'จินตนาการ' ผลลัพธ์ในอนาคตก่อนดำเนินการ

ภาพรวม

แบบจำลองโลกคือโครงข่ายประสาทเทียมที่เรียนรู้ที่จะคาดการณ์ว่าสภาพแวดล้อมเปลี่ยนแปลงไปอย่างไรเมื่อเวลาผ่านไป โดยปล่อยให้ AI 'จินตนาการ' ผลลัพธ์ในอนาคตก่อนดำเนินการ เครื่องจำลองที่เรียนรู้จะนำสิ่งนี้ไปไกลกว่านั้น โดยสร้างสภาพแวดล้อมแบบโต้ตอบและเล่นได้จากข้อมูล แทนที่จะเขียนโค้ดด้วยมือโดยวิศวกร

โมเดลโลกและเครื่องมือจำลองการเรียนรู้อยู่ในชุดเครื่องมือ AI หลัก เมื่อคุณเข้าใจ หัวข้อ AI อื่นๆ จะประเมินและเปรียบเทียบได้ง่ายขึ้น

เจาะลึก

แทนที่จะจดจำว่าต้องทำอะไร แบบจำลองโลกจะจับพลวัตของสภาพแวดล้อม โดยพิจารณาจากสถานะปัจจุบันและการดำเนินการที่เสนอ แบบจำลองจะคาดการณ์การสังเกตครั้งต่อไป บทความ 'World Models' สุดคลาสสิกประจำปี 2018 โดย Ha และ Schmidhuber บีบอัดเฟรมเกมด้วยตัวเข้ารหัสอัตโนมัติ สร้างแบบจำลองไดนามิกด้วยเครือข่ายที่เกิดซ้ำ และฝึกฝนคอนโทรลเลอร์เกือบทั้งหมดภายใน 'ความฝัน' ที่เรียนรู้นี้ กลุ่มผลิตภัณฑ์ Dreamer ของ DeepMind เรียนรู้พลวัตที่แฝงอยู่และแผนการโดยการเปิดตัววิถีที่จินตนาการไว้ และ DreamerV3 ก็เชี่ยวชาญงานที่หลากหลาย แม้กระทั่งการรวบรวมเพชรใน Minecraft ตั้งแต่เริ่มต้น เมื่อเร็วๆ นี้ Genie จาก Google ได้สร้างโลก 2 มิติที่ควบคุมได้จากรูปภาพและวิดีโอที่ไม่มีป้ายกำกับ และ GameNGen ได้สร้างเกม DOOM ขึ้นมาใหม่แบบเรียลไทม์โดยใช้เพียงโมเดลการแพร่กระจายเท่านั้น สิ่งดึงดูดใจ: เจ้าหน้าที่สามารถเรียนรู้หรือทดสอบด้วยจินตนาการที่รวดเร็วและราคาถูก แทนที่จะเป็นความเป็นจริงที่เสี่ยงและเชื่องช้า

ข้อมูลเชิงลึกทางเทคนิค

โดยทั่วไปแล้ว โมเดลโลกจะเข้ารหัสการสังเกตในมิติสูงให้เป็นสถานะแฝงแบบกะทัดรัด จากนั้นเรียนรู้ฟังก์ชันการเปลี่ยนแปลงที่ทำนายสถานะแฝงถัดไปและให้รางวัลจากการกระทำ การวางแผนใช้ 'การเปิดตัว': จินตนาการถึงลำดับการดำเนินการจำนวนมากไปข้างหน้าและเลือกสิ่งที่ดีที่สุด หรือฝึกอบรมนโยบายเกี่ยวกับข้อมูลที่จินตนาการ เวอร์ชันสมัยใหม่ใช้หม้อแปลงหรือการกระจายวิดีโอเพื่อคาดการณ์เฟรมโดยตรง โดยมีเงื่อนไขตามการกระทำของผู้ใช้ ทำให้เกิดการสร้างแบบโต้ตอบทีละเฟรม

การเรียนรู้แบบจำลองโลกและแบบจำลองการเรียนรู้

แบบจำลองโลกคือโครงข่ายประสาทเทียมที่เรียนรู้ที่จะคาดการณ์ว่าสภาพแวดล้อมเปลี่ยนแปลงไปอย่างไรเมื่อเวลาผ่านไป โดยปล่อยให้ AI 'จินตนาการ' ผลลัพธ์ในอนาคตก่อนดำเนินการ เครื่องจำลองที่เรียนรู้จะนำสิ่งนี้ไปไกลกว่านั้น โดยสร้างสภาพแวดล้อมแบบโต้ตอบและเล่นได้จากข้อมูล แทนที่จะเขียนโค้ดด้วยมือโดยวิศวกร โมเดลโลกและเครื่องมือจำลองการเรียนรู้อยู่ในชุดเครื่องมือ AI หลัก เมื่อคุณเข้าใจ หัวข้อ AI อื่นๆ จะประเมินและเปรียบเทียบได้ง่ายขึ้น เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า World Models และ Learned Simulators เป็นโมเดลการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ World Models และ Learned Simulators จะสร้างโมเดลเชิงแนวคิดที่แข็งแกร่งก่อน จากนั้นจึงแมปโมเดลเหล่านั้นกับข้อจำกัดในการผลิตจริง โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้ ในเวลาเดียวกัน ทีมต่างๆ อาจใช้คำเดียวกันต่างกัน ดังนั้นควรกำหนดขอบเขตตั้งแต่เนิ่นๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

คุณสามารถถามคำถามการใช้งานที่ดีขึ้นก่อนที่จะใช้เงินหรือเวลา

คุณสามารถถามคำถามการใช้งานที่ดีขึ้นก่อนที่จะใช้เงินหรือเวลา ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมที่มีความเข้าใจร่วมกันจะตัดสินใจเกี่ยวกับผลิตภัณฑ์ นโยบาย และการเรียนรู้ได้ดีขึ้น

ทีมที่มีความเข้าใจร่วมกันจะตัดสินใจเกี่ยวกับผลิตภัณฑ์ นโยบาย และการเรียนรู้ได้ดีขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของแบบจำลองโลกและเครื่องจำลองการเรียนรู้

โมเดลโลกกำลังกลายเป็นศูนย์กลางของหุ่นยนต์และการสร้างเกม: โมเดลเหล่านี้ให้คำมั่นว่าการเรียนรู้อย่างมีประสิทธิภาพด้วยข้อมูล โดยที่การโต้ตอบที่แท้จริงมีค่าใช้จ่ายสูงและสภาพแวดล้อมที่สามารถเล่นได้ที่สร้างขึ้นทันที คาดหวังโมเดลวิดีโอที่มีสภาพแอ็คชันที่มีความเที่ยงตรงสูงกว่า ขอบเขตยาวขึ้น การผสานรวมที่แน่นแฟ้นยิ่งขึ้นกับตัวแทนการวางแผน และใช้เป็น 'เครื่องจำลองระบบประสาท' สำหรับการฝึกอบรมนโยบายการขับขี่ด้วยตนเองและการจัดการ ความท้าทายแบบเปิด ได้แก่ ความสม่ำเสมอในระยะยาว การหลีกเลี่ยงฟิสิกส์ประสาทหลอน และการขยายขนาดหน่วยความจำ

การใช้งานจริงในโลกแห่งความเป็นจริง

ฮาและชมิดฮูเบอร์ฝึกตัวแทนรถแข่งเกือบทั้งหมดให้อยู่ในความฝันเกี่ยวกับสิ่งแวดล้อม

DreamerV3 ของ DeepMind รวบรวมเพชรใน Minecraft ตั้งแต่เริ่มต้นโดยการวางแผนด้วยจินตนาการ

Genie ของ Google สร้างโลกแพลตฟอร์ม 2D ที่สามารถเล่นได้จากภาพพร้อมท์เดียว

GameNGen ใช้งาน DOOM เวอร์ชันที่เล่นได้แบบเรียลไทม์ โดยมีเฟรมที่สร้างโดยโมเดลการแพร่กระจาย

รูปแบบการดำเนินงาน

แบบจำลองโลกและแบบจำลองการเรียนรู้ในทางปฏิบัติ

ฮาและชมิดฮูเบอร์ฝึกตัวแทนรถแข่งเกือบทั้งหมดให้อยู่ในความฝันเกี่ยวกับสิ่งแวดล้อม

Ha และ Schmidhuber ฝึกอบรมตัวแทนรถแข่งเกือบทั้งหมดภายใต้ความฝันที่เรียนรู้เกี่ยวกับสิ่งแวดล้อม ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

แบบจำลองโลกและแบบจำลองการเรียนรู้ในทางปฏิบัติ

DreamerV3 ของ DeepMind รวบรวมเพชรใน Minecraft ตั้งแต่เริ่มต้นโดยการวางแผนด้วยจินตนาการ

DreamerV3 ของ DeepMind รวบรวมเพชรใน Minecraft ตั้งแต่เริ่มต้นโดยการวางแผนด้วยจินตนาการ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

แบบจำลองโลกและแบบจำลองการเรียนรู้ในทางปฏิบัติ

Genie ของ Google สร้างโลกแพลตฟอร์ม 2D ที่สามารถเล่นได้จากภาพพร้อมท์เดียว

Google's Genie ที่สร้างโลกแพลตฟอร์ม 2D ที่สามารถเล่นได้จากรูปภาพพร้อมท์เพียงภาพเดียว ทีมมักจะได้ผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับ Edge Cases และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

แบบจำลองโลกและแบบจำลองการเรียนรู้ในทางปฏิบัติ

GameNGen ใช้งาน DOOM เวอร์ชันที่เล่นได้แบบเรียลไทม์ โดยมีเฟรมที่สร้างโดยโมเดลการแพร่กระจาย

GameNGen ใช้งาน DOOM เวอร์ชันที่เล่นได้แบบเรียลไทม์ โดยมีเฟรมที่สร้างโดยโมเดลการแพร่กระจาย ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

แต่ละทีมอาจใช้คำเดียวกันต่างกัน ดังนั้นควรกำหนดขอบเขตตั้งแต่เนิ่นๆ

!

เกณฑ์มาตรฐานอาจดูแข็งแกร่งในขณะที่ประสิทธิภาพในโลกแห่งความเป็นจริงไม่เท่ากัน

!

การเพิกเฉยต่อคุณภาพข้อมูลและแผนการประเมินมักสร้างผลลัพธ์ที่เปราะบาง

แผนงานการดำเนินงาน

1

เริ่มต้นด้วยคำจำกัดความภาษาธรรมดาของผลลัพธ์ที่คุณต้องการ

เริ่มต้นด้วยคำจำกัดความภาษาธรรมดาของผลลัพธ์ที่คุณต้องการ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เลือกเมตริกวัดความสำเร็จหนึ่งรายการและเงื่อนไขความล้มเหลวหนึ่งรายการก่อนการทดสอบ

เลือกเมตริกวัดความสำเร็จหนึ่งรายการและเงื่อนไขความล้มเหลวหนึ่งรายการก่อนการทดสอบ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

ดำเนินการนำร่องขนาดเล็กด้วยข้อมูลตัวแทน ไม่ใช่ชุดสาธิตที่สวยงาม

ดำเนินการนำร่องขนาดเล็กด้วยข้อมูลตัวแทน ไม่ใช่ชุดสาธิตที่สวยงาม ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เอกสารที่ซึ่งโมเดลโลกและโปรแกรมจำลองการเรียนรู้ช่วยได้ และวิธีที่ง่ายกว่าจะดีกว่า

เอกสารที่ซึ่งโมเดลโลกและโปรแกรมจำลองการเรียนรู้ช่วยได้ และวิธีที่ง่ายกว่าจะดีกว่า ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป