คู่มือแอปพลิเคชัน

ตัวแทนรั้ว

ราวกั้นของเจ้าหน้าที่คือกฎความปลอดภัย ตัวกรอง และข้อจำกัดที่จำกัดสิ่งที่เจ้าหน้าที่ AI ได้รับอนุญาตให้ทำ พูด หรือเข้าถึง

ภาพรวม

ราวกั้นของเจ้าหน้าที่คือกฎความปลอดภัย ตัวกรอง และข้อจำกัดที่จำกัดสิ่งที่เจ้าหน้าที่ AI ได้รับอนุญาตให้ทำ พูด หรือเข้าถึง พวกเขารักษาระบบอัตโนมัติให้ทำงานได้ตามนโยบายและไม่เกิดปัญหา

Agent Guardrails มุ่งเน้นไปที่การใช้งานจริง: เปลี่ยนความสามารถของโมเดลให้เป็นขั้นตอนการทำงานรายวันที่เชื่อถือได้ซึ่งส่งมอบมูลค่าที่วัดได้

เจาะลึก

เมื่อเจ้าหน้าที่ AI มีความสามารถในการเรียกใช้เครื่องมือ เขียนโค้ด ส่งข้อความ และใช้จ่ายเงินได้ รั้วกั้นจึงกลายเป็นความแตกต่างระหว่างผู้ช่วยที่เป็นประโยชน์และความรับผิด Guardrails ทำงานในหลายชั้น: หน้าจออินพุต guardrails แจ้งให้ผู้ใช้พยายามเจลเบรคหรือร้องขอนอกประเด็น; ราวกั้นเอาท์พุตจะตรวจสอบการตอบสนองของตัวแทนสำหรับเนื้อหาที่เป็นพิษ เป็นเท็จ หรือไม่เป็นไปตามข้อกำหนดก่อนที่จะเข้าถึงผู้ใช้ และฉากกั้นการดำเนินการจะจำกัดเครื่องมือ, API, ไฟล์ หรือขีดจำกัดการใช้จ่ายที่ตัวแทนสามารถใช้ได้ สามารถนำไปใช้เป็นกฎเกณฑ์ที่เข้มงวด (รายการปฏิเสธคำสั่งต้องห้าม) เป็นแบบจำลอง 'ตัดสิน' ที่แยกจากกันซึ่งให้เกรดเอาต์พุต หรือเป็นการอนุญาตที่กำหนดขอบเขตซึ่งทำให้การดำเนินการที่เป็นอันตรายเป็นไปไม่ได้ ราวกั้นที่ดีไม่ปลอดภัย สังเกตได้ และได้รับการทดสอบกับอินพุตของฝ่ายตรงข้าม แทนที่จะเชื่อถือแบบจำลองในการทำงาน

ข้อมูลเชิงลึกทางเทคนิค

สถาปัตยกรรมทั่วไปล้อมรอบเอเจนต์หลักด้วยเครื่องมือตรวจสอบความถูกต้องที่ทำงานก่อนและหลังแต่ละขั้นตอน เครื่องมือตรวจสอบอินพุตอาจใช้การจับคู่รูปแบบบวกกับตัวแยกประเภทเพื่อตรวจจับการแทรกทันที เครื่องมือตรวจสอบเอาต์พุตสามารถแจ้งโมเดลขนาดเล็กอีกครั้งเพื่อให้คะแนนความปลอดภัยหรือการตรวจสอบข้อเท็จจริง การป้องกันการดำเนินการอาศัยหลักการของสิทธิ์ขั้นต่ำ: เอเจนต์จะได้รับคีย์ API ที่มีขอบเขตแคบ เครื่องมือที่อนุญาต และการจำกัดอัตราหรืองบประมาณ ดังนั้นแม้แต่พรอมต์ที่ถูกบุกรุกก็ไม่สามารถกระตุ้นการดำเนินการทำลายล้างได้

เชี่ยวชาญ Guardrails ของตัวแทน

ราวกั้นของเจ้าหน้าที่คือกฎความปลอดภัย ตัวกรอง และข้อจำกัดที่จำกัดสิ่งที่เจ้าหน้าที่ AI ได้รับอนุญาตให้ทำ พูด หรือเข้าถึง พวกเขารักษาระบบอัตโนมัติให้ทำงานได้ตามนโยบายและไม่เกิดปัญหา Agent Guardrails มุ่งเน้นไปที่การใช้งานจริง: เปลี่ยนความสามารถของโมเดลให้เป็นขั้นตอนการทำงานรายวันที่เชื่อถือได้ซึ่งส่งมอบมูลค่าที่วัดได้ เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Agent Guardrails เป็นเพียงโมเดลการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Agent Guardrails มุ่งเน้นไปที่ผลลัพธ์ของเวิร์กโฟลว์ ไม่ใช่จำลองการสาธิต และกำหนดจุดตรวจสอบของมนุษย์ตั้งแต่เนิ่นๆ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การออกแบบระดับแอปพลิเคชันจะกำหนดว่า AI จะปรับปรุงผลลัพธ์ที่แท้จริงหรือไม่ ในขณะเดียวกัน การทำให้กระบวนการที่เสียหายเป็นอัตโนมัติสามารถขยายปัญหาที่มีอยู่ได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การออกแบบระดับแอปพลิเคชันจะกำหนดว่า AI จะปรับปรุงผลลัพธ์ที่แท้จริงหรือไม่

การออกแบบระดับแอปพลิเคชันจะกำหนดว่า AI จะปรับปรุงผลลัพธ์ที่แท้จริงหรือไม่ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การบูรณาการขั้นตอนการทำงานที่ดีจะช่วยเพิ่มผลผลิตที่ผู้ใช้ไว้วางใจได้

การบูรณาการขั้นตอนการทำงานที่ดีจะช่วยเพิ่มผลผลิตที่ผู้ใช้ไว้วางใจได้ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

กรณีการใช้งานที่มีขอบเขตดีจะช่วยลดความเหนื่อยล้าของการเปลี่ยนแปลงและความเสี่ยงในการดำเนินการ

กรณีการใช้งานที่มีขอบเขตดีจะช่วยลดความเหนื่อยล้าของการเปลี่ยนแปลงและความเสี่ยงในการดำเนินการ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของ Agent Guardrails

Guardrails กำลังเปลี่ยนจากตัวกรองคำหลักที่เปราะบางไปสู่การป้องกันแบบหลายชั้นที่รวมกลไกนโยบาย การดำเนินการแบบแซนด์บ็อกซ์ และการตรวจสอบอย่างต่อเนื่อง คาดหวังไลบรารี 'guardrail-as-a-service' ที่ได้มาตรฐาน การตรวจสอบอย่างเป็นทางการสำหรับเอเจนต์ที่สำคัญ และไปป์ไลน์ Red-teaming ที่จะตรวจสอบการเจลเบรกโดยอัตโนมัติ เนื่องจากเจ้าหน้าที่ทำหน้าที่อย่างเป็นอิสระมากขึ้น รางกั้นรันไทม์ที่สามารถหยุดเจ้าหน้าที่ระหว่างทำงาน และอธิบายว่าทำไมจึงกลายเป็นโครงสร้างพื้นฐานที่สำคัญมากกว่าที่คิดในภายหลัง

การใช้งานจริงในโลกแห่งความเป็นจริง

เอเจนต์การเข้ารหัสอยู่ในรายการที่อนุญาตให้รันเฉพาะคำสั่งแบบอ่านอย่างเดียวเท่านั้น ดังนั้นจึงไม่สามารถลบไฟล์หรือพุชไปยังการใช้งานจริงได้

แชทบอทของลูกค้าใช้ตัวกรองเอาต์พุตที่บล็อกการตอบกลับที่มีข้อมูลส่วนบุคคลหรือคำแนะนำทางการเงิน

ตัวแทนจัดซื้อมีขีดจำกัดการใช้จ่ายสูงสุดที่ 100 ดอลลาร์ต่อธุรกรรมที่บังคับใช้นอกโมเดล

ตัวแยกประเภทอินพุตจะตรวจจับและปฏิเสธความพยายามในการฉีดพร้อมต์ที่ซ่อนอยู่ในเอกสารที่เอเจนต์กำลังสรุป

รูปแบบการดำเนินงาน

ตัวแทน Guardrails ในทางปฏิบัติ

เอเจนต์การเข้ารหัสอยู่ในรายการที่อนุญาตให้รันเฉพาะคำสั่งแบบอ่านอย่างเดียวเท่านั้น ดังนั้นจึงไม่สามารถลบไฟล์หรือพุชไปยังการใช้งานจริงได้

เอเจนต์การเขียนโค้ดอยู่ในรายการที่อนุญาตให้รันเฉพาะคำสั่งแบบอ่านอย่างเดียวเท่านั้น ดังนั้นจึงไม่สามารถลบไฟล์หรือส่งไปยังการผลิตได้ โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า เก็บเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ตัวแทน Guardrails ในทางปฏิบัติ

แชทบอทของลูกค้าใช้ตัวกรองเอาต์พุตที่บล็อกการตอบกลับที่มีข้อมูลส่วนบุคคลหรือคำแนะนำทางการเงิน

แชทบอทของลูกค้าใช้ตัวกรองเอาต์พุตที่บล็อกคำตอบที่มีข้อมูลส่วนบุคคลหรือคำแนะนำทางการเงิน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อกำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ตัวแทน Guardrails ในทางปฏิบัติ

ตัวแทนจัดซื้อมีขีดจำกัดการใช้จ่ายสูงสุดที่ 100 ดอลลาร์ต่อธุรกรรมที่บังคับใช้นอกโมเดล

ตัวแทนจัดซื้อมีวงเงินการใช้จ่ายสูงสุดที่ 100 ดอลลาร์ต่อธุรกรรมที่บังคับใช้นอกโมเดล ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ตัวแทน Guardrails ในทางปฏิบัติ

ตัวแยกประเภทอินพุตจะตรวจจับและปฏิเสธความพยายามในการฉีดพร้อมต์ที่ซ่อนอยู่ในเอกสารที่เอเจนต์กำลังสรุป

ตัวแยกประเภทอินพุตตรวจจับและปฏิเสธความพยายามในการแทรกทันทีที่ซ่อนอยู่ในเอกสารที่ตัวแทนกำลังสรุป ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การทำให้กระบวนการที่เสียหายเป็นอัตโนมัติสามารถขยายปัญหาที่มีอยู่ได้

!

ทีมอาจดำเนินการอัตโนมัติมากเกินไปและลบวิจารณญาณของมนุษย์ที่จำเป็นออก

!

คุณภาพอาจคลาดเคลื่อนได้หากไม่ได้รับการประเมินผลลัพธ์อย่างต่อเนื่อง

แผนงานการดำเนินงาน

1

แมปขั้นตอนการทำงานปัจจุบันและระบุขั้นตอนที่มีแรงเสียดทานสูงสุด

แมปขั้นตอนการทำงานปัจจุบันและระบุขั้นตอนที่มีแรงเสียดทานสูงสุด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

กำหนดจุดตรวจของมนุษย์ก่อนระบบอัตโนมัติเต็มรูปแบบ

กำหนดจุดตรวจของมนุษย์ก่อนระบบอัตโนมัติเต็มรูปแบบ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

ฝึกอบรมผู้ใช้เกี่ยวกับการแจ้งเตือน เส้นทางการยกระดับ และมาตรฐานคุณภาพ

ฝึกอบรมผู้ใช้เกี่ยวกับการแจ้งเตือน เส้นทางการยกระดับ และมาตรฐานคุณภาพ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามผลลัพธ์ระดับงานเพื่อยืนยันคุณค่าที่ยั่งยืน

ติดตามผลลัพธ์ระดับงานเพื่อยืนยันคุณค่าที่ยั่งยืน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป