Nyelvi AI ÚTMUTATÓ

Fordító átok az LLM-ekben

A fordított átok egy meglepő kudarc mód, amikor egy nyelvi modell, amely megtanulja, hogy „A az B”, nem tud megbízhatóan válaszolni „B az A”-ra.

Áttekintés

A fordított átok egy meglepő kudarc mód, amikor egy nyelvi modell, amely megtanulja, hogy „A az B”, nem tud megbízhatóan válaszolni „B az A”. Ebből kiderül, hogy az LLM-ek a tényeket egyirányú asszociációként tárolják, nem pedig szimmetrikus tudásként.

A Reversal Curse az LLM-ekben a szöveg és beszéd olvasására, generálására, osztályozására és átalakítására használt nyelvi mesterséges intelligencia verem része.

Mély merülés

Berglund és munkatársai egy 2023-as tanulmányában dokumentálták, hogy a fordított átok azt mutatja, hogy ha egy modellt a „Tom Cruise anyja Mary Lee Pfeiffer” témában képeznek ki, az gyakran kudarcot vall, amikor megkérdezik: „Ki Mary Lee Pfeiffer fia?” bár a válasz logikailag azonos. A hatás a modellméretek között, sőt több száz ilyen tény finomhangolása után is fennáll. Ez nem memóriarés: a modell látta az információt, de csak egy sorrendben. Mivel a képzés optimalizálja a következő token előrejelzését az adatok pontos szórendje alapján, az A-tól B-ig tartó statisztikai kapcsolat nem hoz létre automatikusan B-ből A-ba linket. A megállapítás megkérdőjelezte azokat a feltételezéseket, amelyek a skála önmagában rugalmas, emberszerű érvelést eredményez a tények felett.

Technikai betekintés

A transzformátorok úgy tanulnak, hogy megjósolják a következő tokent egy adott korábbi kontextusban, ezért a gradiens frissítések erősítik az „A, majd B” irányleképezést, de érintetlenül hagyják a „B, majd A”-t, kivéve, ha ez a sorrend a képzésben is megjelenik. A két irány külön súlypályán él. A kutatók ezt a log-valószínűség mérésével erősítették meg: egy előremutató tény megismerése után a fordított állítás valószínűsége az alapvonal közelében maradt, ami azt mutatja, hogy a képzés során nem fordult elő implicit logikai inverzió.

A Reversal Curse elsajátítása az LLM-ekben

A fordított átok egy meglepő kudarc mód, amikor egy nyelvi modell, amely megtanulja, hogy „A az B”, nem tud megbízhatóan válaszolni „B az A”. Ebből kiderül, hogy az LLM-ek a tényeket egyirányú asszociációként tárolják, nem pedig szimmetrikus tudásként. A Reversal Curse az LLM-ekben a szöveg és beszéd olvasására, generálására, osztályozására és átalakítására használt nyelvi mesterséges intelligencia verem része. A mély megértés érdekében az LLM-ekben a Reversal Curse-t működési modellként kell kezelni, nem egyetlen jellemzőként: határozza meg a kívánt eredményeket, tisztázza a feltételezéseket, és válassza el, hogy a rendszer mit tud megbízhatóan elvégezni, attól, ami még szakértői megítélést igényel.

A gyakorlatban az LLM-ekben a Reversal Curse-t használó erős csapatok egyetlen integrált kommunikációs rendszerként tervezik a felszólításokat, a visszakeresést és a felülvizsgálati hurkokat. Dokumentálják az explicit sikerkritériumokat, tesztelik a valósághű adatokat és munkafolyamatokat, és a megfigyelt hibaminták alapján iterálnak, nem pedig egyszeri benchmark győzelmek alapján. Ez az a hely, ahol az elméleti megértés tartós képességgé válik a termék, a politika és a műveletek között.

A nyelvi munkafolyamatok gyorsabban haladhatnak a következetesség feláldozása nélkül. Ugyanakkor a hallucinált tények csendben bekerülhetnek a jelentésekbe, a támogatási folyamatokba vagy a kutatási eredményekbe. A legrugalmasabb megközelítés a kísérleti sebesség és az irányítási fegyelem kombinálása: kísérleti kísérletek futtatása, bizonyítékok rögzítése, döntési naplók közzététele és a biztosítékok folyamatos frissítése a modell viselkedésének, a felhasználói elvárásoknak és a szabályozási követelményeknek megfelelően.

Stratégiai hatás

A nyelvi munkafolyamatok gyorsabban haladhatnak a következetesség feláldozása nélkül.

A nyelvi munkafolyamatok gyorsabban haladhatnak a következetesség feláldozása nélkül. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

Kibővíti a hozzáférést a nyelvek és a kommunikációs stílusok között.

Kibővíti a hozzáférést a nyelvek és a kommunikációs stílusok között. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A csapatok több időt tölthetnek az ítélkezéssel, míg az automatizálás kezeli az ismétlést.

A csapatok több időt tölthetnek az ítélkezéssel, míg az automatizálás kezeli az ismétlést. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A visszafordító átok jövője az LLM-ekben

A vizsgált mérséklések közé tartozik a kétirányú adatbővítés (fordított kifejezések hozzáadása), a képzési célok, amelyek mindkét irányban előrejelzik a tokeneket, és a visszakereső rendszerek, amelyek szimmetrikusan keresik a tényeket, nem pedig a memorizált súlyokra hagyatkoznak. Néhány újabb architektúra és fordított előképzési kísérlet csökkenti a különbséget. Számíts arra, hogy az átok összezsugorodik, de nem tűnik el, mivel mély eltérést tár fel a következő jelű tanulás és a valós viszonyok szimmetrikus struktúrája között.

Valós megvalósítás

A chatbot helyesen adja meg egy híresség szülőjét, de kudarcot vall, amikor arra kérik, hogy nevezze meg a szülő híres gyermekét.

Egy modell azt mondja, hogy „a kilencedik elnök William Henry Harrison volt”, de megbotlik, hogy „melyik elnök volt William Henry Harrison”.

A függvény-leírás leképezést megtanuló kódoló asszisztens nem tudja visszaállítani a függvény nevét önmagában a leírásból.

Az „X gyógyszer kezeli az Y állapotot” című orvosi minőségbiztosítási rendszer nem sorolja fel az X gyógyszert, amikor megkérdezik, hogy mi kezeli az Y állapotot.

Megvalósítási minták

Reversal Curse az LLM-ekben a gyakorlatban

A chatbot helyesen adja meg egy híresség szülőjét, de kudarcot vall, amikor arra kérik, hogy nevezze meg a szülő híres gyermekét.

A chatbot helyesen adja meg a híresség szülőjét, de kudarcot vall, amikor megkérik, hogy nevezzék meg a szülő híres gyermekét. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöböt, emberi eszkalációs útvonalat tartanak a szélsőséges eseteknél, és nyomon követik a termelékenység növekedését és a hibaköltségeket az idő múlásával.

Reversal Curse az LLM-ekben a gyakorlatban

Egy modell azt szavalja, hogy „a kilencedik elnök William Henry Harrison volt”, de megbotlik, hogy „melyik elnök volt William Henry Harrison”.

Egy modell azt mondja, hogy „a kilencedik elnök William Henry Harrison volt”, de megbotlik, hogy „melyik elnök volt William Henry Harrison”. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöbértékeket, emberi eszkalációs utat tartanak a szélsőséges eseteknél, és nyomon követik a termelékenység növekedését és a hibaköltségeket is.

Reversal Curse az LLM-ekben a gyakorlatban

A függvény-leírás leképezést megtanuló kódoló asszisztens nem tudja visszaállítani a függvény nevét önmagában a leírásból.

A kódolási asszisztens, aki megtanulta a függvény-leírás leképezést, önmagában nem tudja visszaállítani a függvény nevét a leírásból. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöböket, emberi eszkalációs útvonalat tartanak a szélsőséges esetekhez, és nyomon követik a termelékenység növekedését és a hibaköltségeket az idő múlásával.

Reversal Curse az LLM-ekben a gyakorlatban

Az „X gyógyszer kezeli az Y állapotot” című orvosi minőségbiztosítási rendszer nem sorolja fel az X gyógyszert, amikor megkérdezik, hogy mi kezeli az Y állapotot.

A „Drug X kezeli az Y állapotot” képzett orvosi minőségbiztosítási rendszer nem sorolja fel az X gyógyszert, amikor megkérdezik, hogy milyen kezelések Y állapot A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöbértékeket, megtartják az emberi eszkalációs útvonalat a szélsőséges eseteknél, és nyomon követik a termelékenység növekedését és a hibaköltségeket az idő múlásával.

Kockázatok és védőkorlátok

!

A hallucinált tények csendben bekerülhetnek a jelentésekbe, a támogatási folyamatokba vagy a kutatási eredményekbe.

!

Az azonnali érzékenység inkonzisztens eredményeket eredményezhet a hasonló kérések között.

!

Ha a hozzáférés-szabályozás gyenge, az érzékeny szöveges adatok megjelenhetnek.

Végrehajtási ütemterv

1

A kiadás előtt határozza meg a kimeneti formátumot, hangszínt és minőségi szabványokat.

A kiadás előtt határozza meg a kimeneti formátumot, hangszínt és minőségi szabványokat. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

2

Földelje a válaszokat megbízható forrásokból, amikor a pontosság számít.

Földelje a válaszokat megbízható forrásokból, amikor a pontosság számít. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

3

Tartson emberi ellenőrzési pontot a nagy tétű kimenetekhez.

Tartson emberi ellenőrzési pontot a nagy tétű kimenetekhez. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

4

Kövesse nyomon a meghibásodási mintákat, és rendszeresen tanítsa át az utasításokat vagy a munkafolyamatokat.

Kövesse nyomon a meghibásodási mintákat, és rendszeresen tanítsa át az utasításokat vagy a munkafolyamatokat. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

Folytassa a felfedezést