คู่มือทางเทคนิค

ตัวแทนกำเนิดและสังคมจำลอง

เจเนอเรทีฟเอเจนต์คือตัวละคร AI ที่ขับเคลื่อนโดยโมเดลภาษาที่จดจำ วางแผน และโต้ตอบเหมือนคนที่น่าเชื่อถือ

ภาพรวม

เจเนอเรทีฟเอเจนต์คือตัวละคร AI ที่ขับเคลื่อนโดยโมเดลภาษาที่จดจำ วางแผน และโต้ตอบเหมือนคนที่น่าเชื่อถือ เมื่อรวมเข้าด้วยกันในโลกจำลอง พวกมันจึงก่อตัวเป็นสังคมเล็กๆ ที่พฤติกรรมทางสังคมปรากฏออกมาด้วยตัวของมันเอง

Generative Agents และ Simulated Societies เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

ในโครงการ Stanford และ Google ปี 2023 ชื่อ Smallville นักวิจัยได้วางเจ้าหน้าที่ 25 คนที่ขับเคลื่อนด้วย GPT-3.5 ในเมืองแซนด์บ็อกซ์และเฝ้าดูพวกเขาประพฤติตัวเหมือนเป็นชุมชน เจ้าหน้าที่แต่ละคนมีประวัติสั้นๆ และตื่นขึ้นมา ปรุงอาหารเช้า ไปทำงาน และพูดคุยกับเพื่อนบ้าน สิ่งสำคัญที่สุดคือพฤติกรรมไม่ได้ถูกเขียนสคริปต์ เจ้าหน้าที่รายหนึ่งตัดสินใจจัดงานปาร์ตี้วันวาเลนไทน์ และในช่วงสองวันจำลองนั้น คำเชิญก็แพร่กระจายออกไปแบบปากต่อปาก เจ้าหน้าที่ประสานงานกันตามเวลา และหลายคนก็มาปรากฏตัวพร้อมกัน สถาปัตยกรรมผสมผสานสตรีมหน่วยความจำ การดึงข้อมูล การสะท้อน และการวางแผน ดังนั้นเจ้าหน้าที่จึงดำเนินการอย่างสม่ำเสมอในช่วงเวลาอันยาวนาน แทนที่จะลืมสิ่งที่เกิดขึ้นเมื่อไม่กี่นาทีที่แล้ว

ข้อมูลเชิงลึกทางเทคนิค

เคล็ดลับหลักคือการสตรีมหน่วยความจำ: บันทึกการประทับเวลาแบบยาวของทุกสิ่งที่เจ้าหน้าที่สังเกตเห็น ในการดำเนินการ เจ้าหน้าที่จะดึงความทรงจำที่เกี่ยวข้องซึ่งให้คะแนนตามความใหม่ ความสำคัญ และความคล้ายคลึงกับสถานการณ์ปัจจุบัน จากนั้นป้อนลงในพรอมต์โมเดลภาษา ขั้นตอนการไตร่ตรองเป็นระยะจะสรุปความทรงจำดิบๆ ให้เป็นข้อมูลเชิงลึกในระดับที่สูงขึ้น (เช่น การอนุมานได้ว่ามีคนหลงใหลในการค้นคว้า) ซึ่งจะถูกเก็บไว้และเป็นแนวทางในการวางแผนและการสนทนาในอนาคต

การเรียนรู้ตัวแทนกำเนิดและสังคมจำลอง

เจเนอเรทีฟเอเจนต์คือตัวละคร AI ที่ขับเคลื่อนโดยโมเดลภาษาที่จดจำ วางแผน และโต้ตอบเหมือนคนที่น่าเชื่อถือ เมื่อรวมเข้าด้วยกันในโลกจำลอง พวกมันจึงก่อตัวเป็นสังคมเล็กๆ ที่พฤติกรรมทางสังคมปรากฏออกมาด้วยตัวของมันเอง Generative Agents และ Simulated Societies เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Generative Agents และ Simulated Societies เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Generative Agent และ Simulated Societies จะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของเจนเนอเรทีฟเอเจนต์และสังคมจำลอง

คาดหวังว่าตัวแทนกำเนิดจะขับเคลื่อนตัวละครที่ไม่ใช่ผู้เล่นให้สมบูรณ์ยิ่งขึ้นในเกม ฝึกจำลองสำหรับการเจรจาหรือการตอบสนองต่อวิกฤติ และกลุ่มทดสอบสังเคราะห์เพื่อศึกษาว่าข่าวลือ ราคา หรือนโยบายแพร่กระจายอย่างไรก่อนการเปิดตัวในโลกแห่งความเป็นจริง เมื่อโมเดลมีราคาถูกลงและหน้าต่างบริบทขยายใหญ่ขึ้น การจำลองจะขยายขนาดจากตัวแทนหลายสิบรายไปจนถึงหลายพันราย นักวิจัยยังทดลองพวกมันในฐานะห้องปฏิบัติการทางสังคมศาสตร์ ขณะเดียวกันก็ตั้งคำถามปลายเปิดเกี่ยวกับอคติ การบงการ และวิธีที่สังคมของเล่นเหล่านี้สะท้อนภาพมนุษย์อย่างซื่อสัตย์

การใช้งานจริงในโลกแห่งความเป็นจริง

การจำลอง Smallville ของ Stanford ซึ่งมีเจ้าหน้าที่ 25 คนจัดการและเข้าร่วมงานปาร์ตี้วันวาเลนไทน์โดยอัตโนมัติ

NPC ที่ขับเคลื่อนด้วยหน่วยความจำที่น่าเชื่อถือในวิดีโอเกมที่จดจำปฏิสัมพันธ์ของผู้เล่นในอดีตและเก็บความแค้นหรือมิตรภาพไว้

การสนทนากลุ่มสังเคราะห์ที่สวมบทบาทเป็นลูกค้าที่หลากหลายเพื่อทดสอบข้อความทางการตลาดหรือคุณลักษณะของผลิตภัณฑ์ล่วงหน้า

เครื่องจำลองการฝึกอบรมที่ชาวเมือง AI ตอบสนองต่อการตัดสินใจของผู้เข้ารับการฝึกอบรมระหว่างการตอบสนองต่อภัยพิบัติหรือการทูต

รูปแบบการดำเนินงาน

เจเนอเรทีฟเอเจนต์และสมาคมจำลองในทางปฏิบัติ

การจำลอง Smallville ของ Stanford ซึ่งมีเจ้าหน้าที่ 25 คนจัดการและเข้าร่วมงานปาร์ตี้วันวาเลนไทน์โดยอัตโนมัติ

การจำลอง Smallville ของสแตนฟอร์ดที่เจ้าหน้าที่ 25 คนจัดระเบียบและเข้าร่วมงานปาร์ตี้วันวาเลนไทน์โดยอัตโนมัติ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

เจเนอเรทีฟเอเจนต์และสมาคมจำลองในทางปฏิบัติ

NPC ที่ขับเคลื่อนด้วยหน่วยความจำที่น่าเชื่อถือในวิดีโอเกม ซึ่งจะจดจำปฏิสัมพันธ์ของผู้เล่นในอดีต และเก็บความแค้นหรือมิตรภาพไว้

NPC ที่ขับเคลื่อนด้วยหน่วยความจำที่น่าเชื่อถือในวิดีโอเกมที่จดจำปฏิสัมพันธ์ของผู้เล่นในอดีตและระงับความแค้นหรือมิตรภาพ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

เจเนอเรทีฟเอเจนต์และสมาคมจำลองในทางปฏิบัติ

การสนทนากลุ่มสังเคราะห์ที่สวมบทบาทเป็นลูกค้าที่หลากหลายเพื่อทดสอบข้อความทางการตลาดหรือคุณลักษณะของผลิตภัณฑ์ล่วงหน้า

การสนทนากลุ่มสังเคราะห์ที่สวมบทบาทเป็นลูกค้าที่หลากหลายเพื่อทดสอบข้อความทางการตลาดหรือคุณลักษณะของผลิตภัณฑ์ล่วงหน้า ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

เจเนอเรทีฟเอเจนต์และสมาคมจำลองในทางปฏิบัติ

เครื่องจำลองการฝึกอบรมที่ชาวเมือง AI ตอบสนองต่อการตัดสินใจของผู้เข้ารับการฝึกอบรมระหว่างการตอบสนองต่อภัยพิบัติหรือการทูต

เครื่องจำลองการฝึกอบรมที่ชาวเมือง AI ตอบสนองต่อการตัดสินใจของผู้ฝึกหัดในระหว่างการตอบสนองต่อภัยพิบัติหรือการฝึกซ้อมการทูต ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อกำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป