GHID tehnic

Agenți generativi și societăți simulate

Agenții generativi sunt personaje AI alimentate de modele de limbaj care își amintesc, planifică și reacționează ca niște oameni credibili.

Prezentare generală

Generative Agents and Simulated Societies este un bloc tehnic care afectează calitatea modelului, costul infrastructurii, latența și fiabilitatea la scară.

Deep Dive

Într-un proiect din 2023 din Stanford și Google numit Smallville, cercetătorii au plasat 25 de agenți conduși de GPT-3.5 într-un oraș sandbox și i-au urmărit comportându-se ca o comunitate. Fiecare agent a avut o scurtă biografie și s-a trezit, a gătit micul dejun, a plecat la muncă și a discutat cu vecinii. În mod crucial, comportamentul nu a fost scenariu. Un agent a decis să organizeze o petrecere de Ziua Îndrăgostiților, iar pe parcursul a două zile simulate invitația s-a răspândit prin gură în gură, agenții au coordonat orele și mai mulți s-au prezentat împreună. Arhitectura combină un flux de memorie, regăsire, reflecție și planificare, astfel încât agenții acționează în mod constant pe perioade lungi de timp, mai degrabă decât să uite ce s-a întâmplat cu câteva minute în urmă.

Perspectivă tehnică

Trucul de bază este un flux de memorie: un jurnal lung, marcat de timp, a tot ceea ce observă un agent. Pentru a acționa, agentul preia amintirile relevante punctate după recentitate, importanță și similitudine cu situația curentă, apoi le introduce în promptul modelului de limbaj. Pașii periodici de reflecție rezumă amintirile brute în perspective de nivel superior (de exemplu, deducerea faptului că cineva este pasionat de cercetare), care sunt stocate și ghidează planificarea și dialogul viitor.

Stăpânirea agenților generativi și a societăților simulate

Agenții generativi sunt personaje AI alimentate de modele de limbaj care își amintesc, planifică și reacționează ca niște oameni credibili. Așezați împreună într-o lume simulată, ei formează societăți minuscule în care comportamentul social apare de la sine. Generative Agents and Simulated Societies este un bloc tehnic care afectează calitatea modelului, costul infrastructurii, latența și fiabilitatea la scară. Pentru a construi o înțelegere profundă, tratați agenții generativi și societățile simulate ca pe un model de operare, nu ca pe o singură caracteristică: definiți rezultatele dorite, clarificați ipotezele și separați ceea ce poate face sistemul în mod fiabil de ceea ce necesită încă o judecată expertă.

În practică, echipele puternice care utilizează agenți generativi și societăți simulate optimizează opțiunile de arhitectură, date și infrastructură în raport cu fiabilitatea și costul. Aceștia documentează criteriile de succes explicite, testează în funcție de date și fluxuri de lucru realiste și repetă pe baza modelelor de eșec observate, mai degrabă decât a câștigurilor de referință unice. Aici înțelegerea teoretică se transformă în capacitate durabilă pentru produse, politici și operațiuni.

Deciziile de arhitectură generează performanța și costurile de operare de ani de zile. În același timp, optimizarea unui benchmark poate ascunde slăbiciuni mai largi ale sistemului. Cea mai rezistentă abordare este combinarea vitezei de experimentare cu disciplina de guvernare: desfășurați pilot, capturați dovezi, publicați jurnalele de decizie și actualizați continuu măsurile de protecție pe măsură ce comportamentul modelului, așteptările utilizatorilor și cerințele de reglementare evoluează.

Impact strategic

Deciziile de arhitectură generează performanța și costurile de operare de ani de zile.

Deciziile de arhitectură generează performanța și costurile de operare de ani de zile. În implementările de înaltă calitate, acest lucru se traduce în reguli de operare măsurabile, limite de proprietate și ritualuri de revizuire recurente, astfel încât echipele să poată mări încrederea în loc să crească ambiguitatea.

Educația tehnică ajută echipele să aleagă stiva potrivită, nu doar cea mai nouă.

Educația tehnică ajută echipele să aleagă stiva potrivită, nu doar cea mai nouă. În implementările de înaltă calitate, acest lucru se traduce în reguli de operare măsurabile, limite de proprietate și ritualuri de revizuire recurente, astfel încât echipele să poată mări încrederea în loc să crească ambiguitatea.

Opțiuni de inginerie mai bune reduc incidentele de fiabilitate în producție.

Opțiuni de inginerie mai bune reduc incidentele de fiabilitate în producție. În implementările de înaltă calitate, acest lucru se traduce în reguli de operare măsurabile, limite de proprietate și ritualuri de revizuire recurente, astfel încât echipele să poată mări încrederea în loc să crească ambiguitatea.

Viitorul agenților generativi și al societăților simulate

Așteptați-vă ca agenți generativi să alimenteze personaje mai bogate non-jucatoare în jocuri, simulări de antrenament pentru negociere sau răspuns la criză și populații de teste sintetice pentru a studia modul în care zvonurile, prețurile sau politicile se răspândesc înainte de lansarea în lumea reală. Pe măsură ce modelele devin mai ieftine și ferestrele de context se extind, simulările se vor scala de la zeci la mii de agenți. Cercetătorii îi cercetează, de asemenea, ca laboratoare de științe sociale, ridicând în același timp întrebări deschise despre părtinire, manipulare și cât de fidel oglindesc aceste societăți de jucării oamenii.

Implementare în lumea reală

Simularea Smallville din Stanford, în care 25 de agenți s-au organizat în mod autonom și au participat la o petrecere de Ziua Îndrăgostiților

NPC-uri credibile, bazate pe memorie, în jocurile video, care își amintesc de interacțiunile jucătorilor din trecut și păstrează ranchiuni sau prietenii

Grupuri focale sintetice care interpretează diverse personaje de clienți pentru a testa în prealabil mesajele de marketing sau caracteristicile produsului

Simulatoare de antrenament în care locuitorii AI reacționează la deciziile unui stagiar în timpul exercițiilor de diplomație sau de răspuns la dezastre

Modele de implementare

Agenți generativi și societăți simulate în practică

Simularea Smallville de la Stanford, unde 25 de agenți au organizat și au participat în mod autonom la o petrecere de Ziua Îndrăgostiților.

Simularea Smallville de la Stanford, în care 25 de agenți au organizat și au participat în mod autonom la o petrecere de Ziua Îndrăgostiților. Echipele obțin de obicei rezultate mai bune atunci când definesc praguri de calitate în avans, păstrează o cale de escaladare umană pentru cazurile marginale și urmăresc atât câștigurile de productivitate, cât și costurile erorilor în timp.

Agenți generativi și societăți simulate în practică

NPC-uri credibile, bazate pe memorie, în jocurile video, care își amintesc de interacțiunile jucătorilor din trecut și păstrează ranchiuni sau prietenii.

NPC-uri credibile, bazate pe memorie, în jocurile video, care își amintesc interacțiunile jucătorilor din trecut și păstrează ranchiună sau prietenie. Echipele obțin de obicei rezultate mai bune atunci când definesc praguri de calitate în avans, păstrează o cale de escaladare umană pentru cazurile marginale și urmăresc atât câștigurile de productivitate, cât și costurile erorilor în timp.

Agenți generativi și societăți simulate în practică

Grupuri focale sintetice care interpretează diverse personaje de clienți pentru a testa în prealabil mesajele de marketing sau caracteristicile produsului.

Grupuri de focalizare sintetice care interpretează diverse personalități ale clienților pentru a testa în prealabil mesajele de marketing sau caracteristicile produsului.

Agenți generativi și societăți simulate în practică

Simulatoare de antrenament în care orășenii AI reacționează la deciziile unui stagiar în timpul exercițiilor de diplomație sau de răspuns la dezastre.

Simulatoare de antrenament în care locuitorii AI reacționează la deciziile unui stagiar în timpul exercițiilor de răspuns la dezastre sau de diplomație.

Riscuri și balustrade

Optimizarea unui punct de referință poate ascunde slăbiciunile mai largi ale sistemului.

Costurile de infrastructură și întreținere sunt adesea subestimate.

Lacunele de securitate și observabilitate pot crește pe măsură ce sistemele devin mai complexe.

Foaia de parcurs de implementare

Definiți obiectivele de latență, calitate și cost înainte de implementare.

Definiți obiectivele de latență, calitate și cost înainte de implementare. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

Benchmark în condiții realiste de încărcare și date.

Benchmark în condiții realiste de încărcare și date. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

Monitorizarea instrumentelor pentru erori, deriva și impactul utilizatorului.

Monitorizarea instrumentelor pentru erori, deriva și impactul utilizatorului. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

Pregătiți căile de retragere și răspuns la incident înainte de scalare.

Pregătiți căile de retragere și răspuns la incident înainte de scalare. Tratați fiecare pas ca pe o poartă de dovezi: dacă criteriile nu sunt îndeplinite, întrerupeți lansarea, închideți decalajul și abia apoi extindeți utilizarea.

Continuați să explorați

Benchmark-uri AI

Utilizați evaluarea în mod corespunzător atunci când comparați opțiunile tehnice.

Citiți Ghidul

Învățare prin întărire

Aprofundați strategiile de pregătire tehnică.

Citiți Ghidul