Alkalmazási ÚTMUTATÓ

Számítógépet használó ügynökök

A számítógépet használó ügynökök úgy kezelik a számítógépet, ahogy az ember: nézik a képernyőt, mozgatják a kurzort, kattintanak és gépelnek.

Áttekintés

A számítógépet használó ügynökök úgy kezelik a számítógépet, ahogy az ember: nézik a képernyőt, mozgatják a kurzort, kattintanak és gépelnek. Ez lehetővé teszi a mesterséges intelligencia számára bármilyen grafikus felülettel rendelkező szoftver használatát, még olyan alkalmazásokat is, amelyeknek nincs API-ja.

A Computer-Using Agents a gyakorlati telepítésre összpontosít: a modellképességet megbízható napi munkafolyamatokká alakítja, amelyek mérhető értéket biztosítanak.

Mély merülés

A számítógépet használó ügynök (CUA) a valós vagy virtuális asztalt a képernyőjén és a beviteli eszközökön keresztül vezérli, nem pedig kódszintű API-kon keresztül. A modell képernyőképeket kap a kijelzőről, indoklást, hogy mit lát, és olyan alacsony szintű műveleteket ad ki, mint a „kattintás a koordinátán (412, 230)”, „gépelje be ezt a szöveget” vagy „görgessen le”. Ez az észlelés-művelet hurok ismétlődik: cselekedj, készíts egy friss képernyőképet, és döntsd el a következő lépést. Mivel képpont- és billentyűleütési szinten működik, a CUA képes a webböngészők meghajtására, az űrlapok kitöltésére, a menükben történő navigálásra és olyan régi alkalmazások használatára, amelyek nem tesznek elérhetővé programozási felületet. Ilyen például a Anthropic Claude számítógép-használata és OpenAI kezelője. A kompromisszumok valósak: a képernyő olvasása lassú lehet, a kattintások kimaradhatnak, és a gép feletti irányítás átadása az ügynöknek biztonsági aggályokat vet fel, ezért a legtöbb homokozóban vagy felügyelt környezetben fut.

Technikai betekintés

Az ügynök kap egy képernyőképet plusz a feladatot, valamint egy látásképes modellt, amely az elemeket (gombokat, mezőket) pixelkoordinátákra földeli. Strukturált műveletet bocsát ki, amelyet egy automatizálási réteg hajt végre az operációs rendszer vagy a böngésző ellen. Minden egyes művelet után egy új képernyőkép zárja be a hurkot, így az ügynök érzékeli a következményt, mielőtt újra cselekszik. A megbízhatóság nagymértékben függ a pontos vizuális földeléstől és az újrapróbálkozástól vagy az ellenőrzési logikától, amikor egy kattintás rossz elemre érkezik.

Számítógép-használó ügynökök elsajátítása

A számítógépet használó ügynökök úgy kezelik a számítógépet, ahogy az ember: nézik a képernyőt, mozgatják a kurzort, kattintanak és gépelnek. Ez lehetővé teszi a mesterséges intelligencia számára bármilyen grafikus felülettel rendelkező szoftver használatát, még olyan alkalmazásokat is, amelyeknek nincs API-ja. A Computer-Using Agents a gyakorlati telepítésre összpontosít: a modellképességet megbízható napi munkafolyamatokká alakítja, amelyek mérhető értéket biztosítanak. A mélyebb megértés érdekében kezelje a Computer-Using Agents-et működési modellként, ne pedig egyetlen jellemzőként: határozza meg a kívánt eredményeket, tisztázza a feltételezéseket, és válassza szét azt, amit a rendszer megbízhatóan képes elvégezni, attól, ami még szakértői megítélést igényel.

A gyakorlatban a Computer-Using Agents-t használó erős csapatok a munkafolyamat-eredményekre összpontosítanak, nem a modell bemutatókra, és korán meghatározzák az emberi ellenőrzési pontokat. Dokumentálják az explicit sikerkritériumokat, tesztelik a valósághű adatokat és munkafolyamatokat, és a megfigyelt hibaminták alapján iterálnak, nem pedig egyszeri benchmark győzelmek alapján. Ez az a hely, ahol az elméleti megértés tartós képességgé válik a termék, a politika és a műveletek között.

Az alkalmazásszintű tervezés határozza meg, hogy az AI javítja-e a valós eredményeket. Ugyanakkor egy megszakadt folyamat automatizálása felerősítheti a meglévő problémákat. A legrugalmasabb megközelítés a kísérleti sebesség és az irányítási fegyelem kombinálása: kísérleti kísérletek futtatása, bizonyítékok rögzítése, döntési naplók közzététele és a biztosítékok folyamatos frissítése a modell viselkedésének, a felhasználói elvárásoknak és a szabályozási követelményeknek megfelelően.

Stratégiai hatás

Az alkalmazásszintű tervezés határozza meg, hogy az AI javítja-e a valós eredményeket.

Az alkalmazásszintű tervezés határozza meg, hogy az AI javítja-e a valós eredményeket. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A jó munkafolyamat-integráció olyan termelékenységnövekedést eredményez, amelyben a felhasználók megbízhatnak.

A jó munkafolyamat-integráció olyan termelékenységnövekedést eredményez, amelyben a felhasználók megbízhatnak. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A jól körülhatárolt felhasználási esetek csökkentik a változtatások fáradtságát és a végrehajtás kockázatát.

A jól körülhatárolt felhasználási esetek csökkentik a változtatások fáradtságát és a végrehajtás kockázatát. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A számítógépet használó ügynökök jövője

A pontosság és a sebesség javulni fog, ahogy a modellek egyre jobbak a felhasználói felület elemeinek földelésében, és ahogy egyes interakciók a nyers képpontok helyett gyorsabb kisegítő lehetőségekre váltanak át. Erősebb védőkorlátokra számíthat: megerősítő üzenetek a kockázatos tevékenységek előtt, korlátozott homokozók és auditnaplók. Az asztali és webes feladatok standard referenciaértékei egyre érlelődnek, és mérhető előrelépést tesznek lehetővé. Hosszabb távon a CUA-k egyesíthetik a pixelvezérlést a közvetlen API-hívásokkal, amelyik a megbízhatóbb alkalmazásonként, miközben megtartja az emberi jóváhagyási lépést az érzékeny műveletekhez, például a fizetésekhez.

Valós megvalósítás

Ügynök, aki éttermet foglal le úgy, hogy megnyit egy böngészőt, navigál a foglalási oldalon, kiválaszt egy időpontot és megadja az elérhetőségeket.

Költségjelentések automatizálása a nyugták képernyőn történő olvasásával és értékek beírásával egy API-val nem rendelkező asztali könyvelő alkalmazásba.

Minőségbiztosítási tesztelés, ahol az ügynök végigkattint egy webalkalmazás regisztrációs folyamatán, hogy megbizonyosodjon arról, hogy minden gomb és űrlap működik.

Ismétlődő kormányzati vagy biztosítási internetes űrlapok kitöltése az egyes mezők címkéinek elolvasásával és a helyes adatok beírásával.

Megvalósítási minták

Számítógép-használó ügynökök a gyakorlatban

Ügynök, aki éttermet foglal le úgy, hogy megnyit egy böngészőt, navigál a foglalási oldalon, kiválaszt egy időpontot és megadja az elérhetőségeket.

Ügynök, aki egy éttermet úgy foglal le, hogy megnyit egy böngészőt, navigál a foglalási oldalon, kiválasztja az időpontot és megadja a kapcsolattartási adatokat. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöböket, emberi eszkalációs útvonalat tartanak a szélsőséges eseteknél, és nyomon követik a termelékenység növekedését és a hibaköltségeket is.

Számítógép-használó ügynökök a gyakorlatban

Költségjelentések automatizálása a nyugták képernyőn történő olvasásával és értékek beírásával egy API-val nem rendelkező asztali könyvelő alkalmazásba.

Költségjelentések automatizálása a nyugták képernyőn történő olvasásával és az értékek beírásával egy API-val nem rendelkező asztali számviteli alkalmazásba. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöböket, megtartják az emberi eszkalációs útvonalat a szélsőséges eseteknél, és nyomon követik mind a termelékenységnövekedést, mind a hibaköltségeket az idő múlásával.

Számítógép-használó ügynökök a gyakorlatban

Minőségbiztosítási tesztelés, ahol az ügynök végigkattint egy webalkalmazás regisztrációs folyamatán, hogy megbizonyosodjon arról, hogy minden gomb és űrlap működik.

Minőségbiztosítási tesztelés, ahol az ügynök végigkattint egy webalkalmazás regisztrációs folyamatán, hogy megbizonyosodjon arról, hogy minden gomb és űrlap működik. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöböket, megtartják az emberi eszkalációs útvonalat a szélsőséges eseteknél, és nyomon követik a termelékenység növekedését és a hibaköltségeket is.

Számítógép-használó ügynökök a gyakorlatban

Ismétlődő kormányzati vagy biztosítási internetes űrlapok kitöltése az egyes mezők címkéinek elolvasásával és a helyes adatok beírásával.

Ismétlődő kormányzati vagy biztosítási webes űrlapok kitöltése az egyes mezők címkéinek elolvasásával és a megfelelő információk beírásával A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöbértékeket, megtartják az emberi eszkalációs utat a szélsőséges eseteknél, és nyomon követik a termelékenység növekedését és a hibaköltségeket az idő múlásával.

Kockázatok és védőkorlátok

!

Egy megszakadt folyamat automatizálása felerősítheti a meglévő problémákat.

!

A csapatok túlautomatizálhatják és eltávolíthatják a szükséges emberi ítélőképességet.

!

A minőség sodródhat, ha a kimeneteket nem értékelik folyamatosan.

Végrehajtási ütemterv

1

Térképezze fel az aktuális munkafolyamatot, és határozza meg a legnagyobb súrlódású lépést.

Térképezze fel az aktuális munkafolyamatot, és határozza meg a legnagyobb súrlódású lépést. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

2

Emberi ellenőrzőpontok meghatározása a teljes automatizálás előtt.

Emberi ellenőrzőpontok meghatározása a teljes automatizálás előtt. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

3

Tanítsa meg a felhasználókat az utasításokról, az eszkalációs utakról és a minőségi szabványokról.

Tanítsa meg a felhasználókat az utasításokról, az eszkalációs utakról és a minőségi szabványokról. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

4

Kövesse nyomon a feladat szintű eredményeket a tartós érték megerősítéséhez.

Kövesse nyomon a feladat szintű eredményeket a tartós érték megerősítéséhez. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

Folytassa a felfedezést