PANDUAN Aplikasi

Agen yang Menggunakan Komputer

Agen yang menggunakan komputer mengoperasikan komputer seperti yang dilakukan seseorang: melihat layar, menggerakkan kursor, mengklik, dan mengetik.

Ikhtisar

Agen yang menggunakan komputer mengoperasikan komputer seperti yang dilakukan seseorang: melihat layar, menggerakkan kursor, mengklik, dan mengetik. Hal ini memungkinkan AI menggunakan perangkat lunak apa pun dengan antarmuka grafis, bahkan aplikasi tanpa API.

Agen yang Menggunakan Komputer berfokus pada penerapan praktis: mengubah kemampuan model menjadi alur kerja harian yang andal dan memberikan nilai terukur.

Menyelam Lebih Dalam

Agen yang menggunakan komputer (CUA) mengontrol desktop nyata atau virtual melalui layar dan perangkat inputnya, bukan melalui API tingkat kode. Model menerima tangkapan layar tampilan, alasan tentang apa yang dilihatnya, dan mengeluarkan tindakan tingkat rendah seperti 'klik pada koordinat (412, 230)', 'ketik teks ini', atau 'gulir ke bawah'. Lingkaran persepsi-tindakan ini berulang: bertindak, ambil tangkapan layar baru, putuskan langkah selanjutnya. Karena bekerja pada tingkat piksel dan penekanan tombol, CUA dapat menggerakkan browser web, mengisi formulir, menavigasi menu, dan menggunakan aplikasi lama yang tidak menampilkan antarmuka terprogram. Contohnya termasuk penggunaan komputer Claude oleh Anthropic dan Operator OpenAI. Kerugiannya nyata: pembacaan layar bisa lambat, klik bisa meleset, dan memberikan agen kendali atas mesin akan menimbulkan masalah keamanan, sehingga sebagian besar dijalankan di lingkungan sandbox atau diawasi.

Wawasan Teknis

Agen diberi tangkapan layar ditambah tugas, dan model yang mampu melihat mendasarkan elemen (tombol, bidang) ke koordinat piksel. Ini mengeluarkan tindakan terstruktur yang dijalankan lapisan otomatisasi terhadap OS atau browser. Setelah setiap tindakan, tangkapan layar baru menutup perulangan, sehingga agen memahami konsekuensinya sebelum bertindak lagi. Keandalan sangat bergantung pada landasan visual yang akurat dan pada percobaan ulang atau logika verifikasi ketika sebuah klik mendarat di elemen yang salah.

Menguasai Agen yang Menggunakan Komputer

Agen yang menggunakan komputer mengoperasikan komputer seperti yang dilakukan seseorang: melihat layar, menggerakkan kursor, mengklik, dan mengetik. Hal ini memungkinkan AI menggunakan perangkat lunak apa pun dengan antarmuka grafis, bahkan aplikasi tanpa API. Agen yang Menggunakan Komputer berfokus pada penerapan praktis: mengubah kemampuan model menjadi alur kerja harian yang andal dan memberikan nilai terukur. Untuk membangun pemahaman yang mendalam, perlakukan Agen yang Menggunakan Komputer sebagai model operasi, bukan fitur tunggal: tentukan hasil yang diinginkan, klarifikasi asumsi, dan pisahkan apa yang dapat dilakukan sistem dengan andal dari apa yang masih memerlukan penilaian ahli.

Dalam praktiknya, tim kuat yang menggunakan Agen Pengguna Komputer berfokus pada hasil alur kerja, bukan membuat model demo, dan menentukan titik pemeriksaan manusia sejak dini. Mereka mendokumentasikan kriteria keberhasilan yang eksplisit, menguji berdasarkan data dan alur kerja yang realistis, dan melakukan iterasi berdasarkan pola kegagalan yang diamati, bukan berdasarkan kemenangan tolok ukur yang hanya terjadi satu kali. Di sinilah pemahaman teoritis berubah menjadi kemampuan yang tahan lama di seluruh produk, kebijakan, dan operasi.

Desain tingkat aplikasi menentukan apakah AI meningkatkan hasil nyata. Pada saat yang sama, Mengotomatiskan proses yang rusak dapat memperburuk masalah yang ada. Pendekatan yang paling tangguh adalah menggabungkan kecepatan eksperimen dengan disiplin tata kelola: menjalankan uji coba, menangkap bukti, menerbitkan catatan keputusan, dan terus memperbarui upaya perlindungan seiring dengan berkembangnya perilaku model, harapan pengguna, dan persyaratan peraturan.

Dampak Strategis

Desain tingkat aplikasi menentukan apakah AI meningkatkan hasil nyata.

Desain tingkat aplikasi menentukan apakah AI meningkatkan hasil nyata. Dalam penerapan berkualitas tinggi, hal ini diterjemahkan ke dalam aturan operasi yang terukur, batasan kepemilikan, dan ritual peninjauan berulang sehingga tim dapat meningkatkan kepercayaan diri alih-alih menskalakan ambiguitas.

Integrasi alur kerja yang baik menciptakan peningkatan produktivitas yang dapat dipercaya oleh pengguna.

Integrasi alur kerja yang baik menciptakan peningkatan produktivitas yang dapat dipercaya oleh pengguna. Dalam penerapan berkualitas tinggi, hal ini diterjemahkan ke dalam aturan operasi yang terukur, batasan kepemilikan, dan ritual peninjauan berulang sehingga tim dapat meningkatkan kepercayaan diri alih-alih menskalakan ambiguitas.

Kasus penggunaan yang tercakup dengan baik mengurangi kelelahan perubahan dan risiko implementasi.

Kasus penggunaan yang tercakup dengan baik mengurangi kelelahan perubahan dan risiko implementasi. Dalam penerapan berkualitas tinggi, hal ini diterjemahkan ke dalam aturan operasi yang terukur, batasan kepemilikan, dan ritual peninjauan berulang sehingga tim dapat meningkatkan kepercayaan diri alih-alih menskalakan ambiguitas.

Masa Depan Agen yang Menggunakan Komputer

Akurasi dan kecepatan akan meningkat seiring dengan semakin baiknya model dalam menggunakan elemen UI dan beberapa interaksi beralih ke pohon aksesibilitas yang lebih cepat daripada piksel mentah. Harapkan pagar pembatas yang lebih kuat: konfirmasi sebelum tindakan berisiko, kotak pasir yang dibatasi, dan log audit. Tolok ukur standar untuk tugas-tugas desktop dan web semakin matang, sehingga mendorong kemajuan yang terukur. Dalam jangka panjang, CUA dapat memadukan kontrol piksel dengan panggilan API langsung, menggunakan mana saja yang lebih andal untuk setiap aplikasi, sambil tetap menjaga langkah persetujuan manusia untuk operasi sensitif seperti pembayaran.

Implementasi Dunia Nyata

Agen yang memesan restoran dengan membuka browser, menavigasi situs reservasi, memilih waktu, dan memasukkan detail kontak.

Mengotomatiskan laporan pengeluaran dengan membaca tanda terima di layar dan mengetikkan nilai ke dalam aplikasi akuntansi desktop yang tidak memiliki API.

Pengujian QA di mana agen mengklik alur pendaftaran aplikasi web untuk mengonfirmasi setiap tombol dan formulir berfungsi.

Mengisi formulir web pemerintah atau asuransi berulang-ulang dengan membaca setiap label bidang dan mengetik informasi yang benar.

Pola Implementasi

Agen yang Menggunakan Komputer dalam praktiknya

Agen yang memesan restoran dengan membuka browser, menavigasi situs reservasi, memilih waktu, dan memasukkan detail kontak.

Agen yang memesan restoran dengan membuka browser, menavigasi situs reservasi, memilih waktu, dan memasukkan detail kontak Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, menjaga jalur eskalasi manusia untuk kasus-kasus edge, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Agen yang Menggunakan Komputer dalam praktiknya

Mengotomatiskan laporan pengeluaran dengan membaca tanda terima di layar dan mengetikkan nilai ke dalam aplikasi akuntansi desktop yang tidak memiliki API.

Mengotomatiskan laporan pengeluaran dengan membaca tanda terima di layar dan mengetikkan nilai ke dalam aplikasi akuntansi desktop yang tidak memiliki API. Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, menjaga jalur eskalasi manusia untuk kasus-kasus sulit, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Agen yang Menggunakan Komputer dalam praktiknya

Pengujian QA di mana agen mengklik alur pendaftaran aplikasi web untuk mengonfirmasi setiap tombol dan formulir berfungsi.

Pengujian QA di mana agen mengklik alur pendaftaran aplikasi web untuk mengonfirmasi setiap tombol dan formulir berfungsi. Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, menjaga jalur eskalasi manusia untuk kasus-kasus edge, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Agen yang Menggunakan Komputer dalam praktiknya

Mengisi formulir web pemerintah atau asuransi berulang-ulang dengan membaca setiap label bidang dan mengetik informasi yang benar.

Mengisi formulir web pemerintah atau asuransi yang berulang-ulang dengan membaca setiap label bidang dan mengetik informasi yang benar Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, menjaga jalur eskalasi manusia untuk kasus-kasus ekstrem, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Risiko & Pagar Pembatas

!

Mengotomatiskan proses yang rusak dapat memperburuk masalah yang ada.

!

Tim mungkin terlalu mengotomatiskan dan menghilangkan penilaian manusia yang diperlukan.

!

Kualitas dapat menurun jika keluaran tidak dievaluasi secara terus menerus.

Peta Jalan Implementasi

1

Petakan alur kerja saat ini dan identifikasi langkah dengan gesekan tertinggi.

Petakan alur kerja saat ini dan identifikasi langkah dengan gesekan tertinggi. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

2

Tentukan pos pemeriksaan manusia sebelum otomatisasi penuh.

Tentukan pos pemeriksaan manusia sebelum otomatisasi penuh. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

3

Latih pengguna tentang petunjuk, jalur eskalasi, dan standar kualitas.

Latih pengguna tentang petunjuk, jalur eskalasi, dan standar kualitas. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

4

Lacak hasil tingkat tugas untuk memastikan nilai berkelanjutan.

Lacak hasil tingkat tugas untuk memastikan nilai berkelanjutan. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

Terus Menjelajah