คู่มือแอปพลิเคชัน

ตัวแทนการใช้คอมพิวเตอร์

เอเจนต์ที่ใช้คอมพิวเตอร์ควบคุมคอมพิวเตอร์ในลักษณะเดียวกับที่บุคคลทำ เช่น การดูหน้าจอ การเลื่อนเคอร์เซอร์ การคลิก และการพิมพ์

ภาพรวม

เอเจนต์ที่ใช้คอมพิวเตอร์ควบคุมคอมพิวเตอร์ในลักษณะเดียวกับที่บุคคลทำ เช่น การดูหน้าจอ การเลื่อนเคอร์เซอร์ การคลิก และการพิมพ์ ซึ่งช่วยให้ AI สามารถใช้ซอฟต์แวร์ใดๆ ที่มีอินเทอร์เฟซแบบกราฟิก แม้แต่แอปที่ไม่มี API

Computer-Using Agents มุ่งเน้นไปที่การใช้งานจริง: เปลี่ยนความสามารถของโมเดลให้เป็นเวิร์กโฟลว์รายวันที่เชื่อถือได้ซึ่งส่งมอบมูลค่าที่วัดได้

เจาะลึก

ตัวแทนการใช้คอมพิวเตอร์ (CUA) ควบคุมเดสก์ท็อปจริงหรือเสมือนผ่านหน้าจอและอุปกรณ์อินพุตแทนที่จะควบคุมผ่าน API ระดับรหัส โมเดลจะได้รับภาพหน้าจอของจอแสดงผล เหตุผลเกี่ยวกับสิ่งที่เห็น และส่งเอาต์พุตการดำเนินการระดับต่ำ เช่น "คลิกที่พิกัด (412, 230)" "พิมพ์ข้อความนี้" หรือ "เลื่อนลง" การรับรู้และการกระทำซ้ำๆ กัน: ดำเนินการ จับภาพหน้าจอใหม่ ตัดสินใจดำเนินการต่อไป เนื่องจากทำงานในระดับพิกเซลและการกดแป้นพิมพ์ CUA จึงสามารถขับเคลื่อนเว็บเบราว์เซอร์ กรอกแบบฟอร์ม นำทางเมนู และใช้แอปพลิเคชันรุ่นเก่าที่ไม่แสดงอินเทอร์เฟซทางโปรแกรม ตัวอย่าง ได้แก่ การใช้คอมพิวเตอร์ Claude ของ Anthropic และผู้ดำเนินการของ OpenAI ข้อเสียมีจริง: การอ่านหน้าจออาจช้า การคลิกอาจพลาด และการให้ตัวแทนควบคุมเครื่องจักรทำให้เกิดข้อกังวลด้านความปลอดภัย ดังนั้นส่วนใหญ่จึงทำงานในสภาพแวดล้อมแบบแซนด์บ็อกซ์หรือภายใต้การดูแล

ข้อมูลเชิงลึกทางเทคนิค

เจ้าหน้าที่จะได้รับภาพหน้าจอพร้อมงาน และโมเดลที่มีความสามารถในการมองเห็นจะกำหนดองค์ประกอบ (ปุ่ม ฟิลด์) ให้กับพิกัดพิกเซล มันส่งเสียงการกระทำที่มีโครงสร้างซึ่งเลเยอร์อัตโนมัติดำเนินการกับระบบปฏิบัติการหรือเบราว์เซอร์ หลังจากแต่ละการกระทำ ภาพหน้าจอใหม่จะปิดลูป ดังนั้นเจ้าหน้าที่จึงรับรู้ผลที่ตามมาก่อนที่จะดำเนินการอีกครั้ง ความน่าเชื่อถือขึ้นอยู่กับการมองเห็นภาพที่แม่นยำ และการลองใหม่หรือตรรกะการตรวจสอบ เมื่อคลิกไปที่องค์ประกอบที่ไม่ถูกต้อง

การเรียนรู้ตัวแทนการใช้คอมพิวเตอร์

เอเจนต์ที่ใช้คอมพิวเตอร์ควบคุมคอมพิวเตอร์ในลักษณะเดียวกับที่บุคคลทำ เช่น การดูหน้าจอ การเลื่อนเคอร์เซอร์ การคลิก และการพิมพ์ ซึ่งช่วยให้ AI สามารถใช้ซอฟต์แวร์ใดๆ ที่มีอินเทอร์เฟซแบบกราฟิก แม้แต่แอปที่ไม่มี API Computer-Using Agents มุ่งเน้นไปที่การใช้งานจริง: เปลี่ยนความสามารถของโมเดลให้เป็นเวิร์กโฟลว์รายวันที่เชื่อถือได้ซึ่งส่งมอบมูลค่าที่วัดได้ เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Computer-Using Agents เป็นเพียงโมเดลการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ตัวแทนการใช้คอมพิวเตอร์มุ่งเน้นไปที่ผลลัพธ์ของเวิร์กโฟลว์ ไม่ใช่จำลองการสาธิต และกำหนดจุดตรวจสอบของมนุษย์ตั้งแต่เนิ่นๆ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การออกแบบระดับแอปพลิเคชันจะกำหนดว่า AI จะปรับปรุงผลลัพธ์ที่แท้จริงหรือไม่ ในขณะเดียวกัน การทำให้กระบวนการที่เสียหายเป็นอัตโนมัติสามารถขยายปัญหาที่มีอยู่ได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การออกแบบระดับแอปพลิเคชันจะกำหนดว่า AI จะปรับปรุงผลลัพธ์ที่แท้จริงหรือไม่

การออกแบบระดับแอปพลิเคชันจะกำหนดว่า AI จะปรับปรุงผลลัพธ์ที่แท้จริงหรือไม่ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การบูรณาการขั้นตอนการทำงานที่ดีจะช่วยเพิ่มผลผลิตที่ผู้ใช้ไว้วางใจได้

การบูรณาการขั้นตอนการทำงานที่ดีจะช่วยเพิ่มผลผลิตที่ผู้ใช้ไว้วางใจได้ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

กรณีการใช้งานที่มีขอบเขตดีจะช่วยลดความเหนื่อยล้าของการเปลี่ยนแปลงและความเสี่ยงในการดำเนินการ

กรณีการใช้งานที่มีขอบเขตดีจะช่วยลดความเหนื่อยล้าของการเปลี่ยนแปลงและความเสี่ยงในการดำเนินการ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของตัวแทนการใช้คอมพิวเตอร์

ความแม่นยำและความเร็วจะดีขึ้นเมื่อโมเดลทำงานได้ดียิ่งขึ้นในองค์ประกอบ UI ที่ต่อสายดิน และเนื่องจากการโต้ตอบบางอย่างเปลี่ยนไปเป็นแผนผังการเข้าถึงที่เร็วขึ้นแทนที่จะเป็นพิกเซลดิบ คาดว่าจะมีรั้วกั้นที่แข็งแกร่งยิ่งขึ้น: การแจ้งเตือนก่อนการดำเนินการที่มีความเสี่ยง แซนด์บ็อกซ์ที่ถูกจำกัด และบันทึกการตรวจสอบ มาตรฐานมาตรฐานสำหรับงานบนเดสก์ท็อปและเว็บกำลังเติบโต ผลักดันความก้าวหน้าที่วัดผลได้ ในระยะยาว CUA อาจผสมผสานการควบคุมพิกเซลกับการเรียก API โดยตรง โดยใช้วิธีใดก็ตามที่เชื่อถือได้มากกว่าต่อแอป ขณะเดียวกันก็รักษาขั้นตอนการอนุมัติของมนุษย์สำหรับการดำเนินการที่มีความละเอียดอ่อน เช่น การชำระเงิน

การใช้งานจริงในโลกแห่งความเป็นจริง

ตัวแทนที่จองร้านอาหารโดยเปิดเบราว์เซอร์ นำทางไปยังสถานที่จอง เลือกเวลา และป้อนรายละเอียดการติดต่อ

รายงานค่าใช้จ่ายอัตโนมัติโดยการอ่านใบเสร็จรับเงินบนหน้าจอและพิมพ์ค่าลงในแอปการบัญชีบนเดสก์ท็อปที่ไม่มี API

การทดสอบ QA โดยที่ตัวแทนคลิกผ่านขั้นตอนการลงทะเบียนของเว็บแอปเพื่อยืนยันว่าทุกปุ่มและแบบฟอร์มใช้งานได้

กรอกแบบฟอร์มเว็บรัฐบาลหรือประกันภัยซ้ำๆ โดยอ่านป้ายแต่ละช่องแล้วพิมพ์ข้อมูลที่ถูกต้อง

รูปแบบการดำเนินงาน

ตัวแทนการใช้คอมพิวเตอร์ในทางปฏิบัติ

ตัวแทนที่จองร้านอาหารโดยเปิดเบราว์เซอร์ นำทางไปยังสถานที่จอง เลือกเวลา และป้อนรายละเอียดการติดต่อ

ตัวแทนที่จองร้านอาหารโดยเปิดเบราว์เซอร์ นำทางไปยังสถานที่จอง เลือกเวลา และป้อนรายละเอียดการติดต่อ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ตัวแทนการใช้คอมพิวเตอร์ในทางปฏิบัติ

รายงานค่าใช้จ่ายอัตโนมัติโดยการอ่านใบเสร็จรับเงินบนหน้าจอและพิมพ์ค่าลงในแอปการบัญชีบนเดสก์ท็อปที่ไม่มี API

รายงานค่าใช้จ่ายอัตโนมัติโดยการอ่านใบเสร็จรับเงินบนหน้าจอและพิมพ์ค่าลงในแอปการบัญชีบนเดสก์ท็อปที่ไม่มีทีม API มักจะได้รับผลลัพธ์ที่ดีกว่า เมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ตัวแทนการใช้คอมพิวเตอร์ในทางปฏิบัติ

การทดสอบ QA โดยที่ตัวแทนคลิกผ่านขั้นตอนการลงทะเบียนของเว็บแอปเพื่อยืนยันว่าทุกปุ่มและแบบฟอร์มใช้งานได้

การทดสอบ QA โดยที่ตัวแทนคลิกผ่านขั้นตอนการลงทะเบียนของเว็บแอปเพื่อยืนยันทุกปุ่มและแบบฟอร์มที่ทำงาน ทีมมักจะได้รับผลลัพธ์ที่ดีขึ้นเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ตัวแทนการใช้คอมพิวเตอร์ในทางปฏิบัติ

กรอกแบบฟอร์มเว็บรัฐบาลหรือประกันภัยซ้ำๆ โดยอ่านป้ายแต่ละช่องแล้วพิมพ์ข้อมูลที่ถูกต้อง

กรอกแบบฟอร์มเว็บรัฐบาลหรือประกันภัยซ้ำๆ โดยการอ่านแต่ละป้ายฟิลด์และพิมพ์ข้อมูลที่ถูกต้อง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การทำให้กระบวนการที่เสียหายเป็นอัตโนมัติสามารถขยายปัญหาที่มีอยู่ได้

!

ทีมอาจดำเนินการอัตโนมัติมากเกินไปและลบวิจารณญาณของมนุษย์ที่จำเป็นออก

!

คุณภาพอาจคลาดเคลื่อนได้หากไม่ได้รับการประเมินผลลัพธ์อย่างต่อเนื่อง

แผนงานการดำเนินงาน

1

แมปขั้นตอนการทำงานปัจจุบันและระบุขั้นตอนที่มีแรงเสียดทานสูงสุด

แมปขั้นตอนการทำงานปัจจุบันและระบุขั้นตอนที่มีแรงเสียดทานสูงสุด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

กำหนดจุดตรวจของมนุษย์ก่อนระบบอัตโนมัติเต็มรูปแบบ

กำหนดจุดตรวจของมนุษย์ก่อนระบบอัตโนมัติเต็มรูปแบบ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

ฝึกอบรมผู้ใช้เกี่ยวกับการแจ้งเตือน เส้นทางการยกระดับ และมาตรฐานคุณภาพ

ฝึกอบรมผู้ใช้เกี่ยวกับการแจ้งเตือน เส้นทางการยกระดับ และมาตรฐานคุณภาพ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามผลลัพธ์ระดับงานเพื่อยืนยันคุณค่าที่ยั่งยืน

ติดตามผลลัพธ์ระดับงานเพื่อยืนยันคุณค่าที่ยั่งยืน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป