Làkk AI GUIDE

Autoencoder yu néew ngir dindi màndarga

Autoencoder yu néew yi dañuy ubbi mbir yu jaxasoo yi ci biir reso neuronal ci ay junni man-mani yu nit ñi mëna jàng.

Résumé

Autoencoder yu néew yi dañuy ubbi mbir yu jaxasoo yi ci biir reso neuronal ci ay junni man-mani yu nit ñi mëna jàng. Mooy jumtukaay bi gëna am solo ngir xam ban konsept la modelu làkk jàng.

Sparse Autoencoders ngir dindi ay man-man bokk na ci lakk-IA stack bi ñuy jëfandikoo ngir jàng, defar, xaaj, ak soppi mbind ak wax ci eskaal.

Plongeur bu xóot

Ci biir transformatër bi, benn neuron lay faral di tàkk ngir gis-gis yu bari yu wuute — muy lu ñuy woowe superposition, muy lu model bi di def ay man-man yu ëpp limu am dimension. Benn autoencoder bu bariwul (SAE) dañu koy tàggat ngir mu defaraat vecteur biy aktive ab couche ci jaare ko ci ab couche bu nëbbu bu gëna yaatu ak penalti bu bariwul, suko defee ay unité yu néew rek ñooy aktive benn yoon. Unit yooyu dañuy méngoo ak benn konsept buñ mëna tekki. Liggéeyu 2024 bi tuddu 'Escalement Monosemanticité' génne na ay milioŋ ciy màndarga ci 3 Sonnet, boole ci màndarga bu siiw bii di 'Pont de Porte d'Or'. Yokkatal ko moo tax model bi wax bu baax ci pont bi - firnde bu jub ci màndarga bi nekkoon sabab, nekkul coincidence.

Gis-gis xarala

SAE amna encoder buy màndargaal ab aktivasioŋ d-dimensionnel ci barab bu gëna mag (lu melni, 10-100x) espace latent, ab L1 wala top-k sparsity constraint buy forse latents yu bari ñu ba zero, ak ab decoder buy defaraat ab aktivasioŋ bu njëkk. Taggat yaram dafay wàññi njuumti tabaxaat boole ci daanu sparsity. Ndax diksoneer bi dafa mat te bariwul ay mbir, ay latente yu benn-benn dañuy nekk 'monosemantic' - di wut benn konsept - loolu moo tax ñu gëna mëna tekki neuron yu ñor yi.

Xam Autoencoder yu néew ngir dindi màndarga

Autoencoder yu néew yi dañuy ubbi mbir yu jaxasoo yi ci biir reso neuronal ci ay junni man-mani yu nit ñi mëna jàng. Mooy jumtukaay bi gëna am solo ngir xam ban konsept la modelu làkk jàng. Sparse Autoencoders ngir dindi ay man-man bokk na ci lakk-IA stack bi ñuy jëfandikoo ngir jàng, defar, xaaj, ak soppi mbind ak wax ci eskaal. Ngir tabax xam-xam bu xóot, jàppal Sparse Autoencoders for Feature Extraction ni xeetu liggéey, du benn màndarga: leeral njariñ yi nga bëgg, leeral xalaat yi, ba noppi tàqale li sistem bi mëna def ci anam wu wóor ak li ba leegi soxla àtteb kàngam.

Ci jëf, ekip yu am doole yiy jëfandikoo Sparse Autoencoders ngir génne ay man-man, ñuy wut, ak xoolaat ay bouclage ni benn sistemu jokkoo buñ boole. Dañuy bind kritër yu leer ngir am ndam, natt leen ci done yu dëggu ak def liggéey, ba noppi ñu baamtu ci anamu ñàkka mëna seetlu, du ci benn yoon benchmark wins. Mooy barab bi xam-xam theorie bi di soppiku nekk kàttan buy yàgg ci produit yi, ci politik yi ak ci liggéey yi.

Liggéeyukaay yi ci làkk yi mën nañu gëna gaaw te duñu yàq deggoo gi. Ci jamano jooju, mbiri Hallucinated mën nañu dugg ci rapoor yi, jàppale flow yi, wala gëstu yi génne. Xeetu jëf bi gëna dëgër mooy boole gaawaayu jàngat ak disipline nguur: doxal pilote, jàpp firnde, siiwal dogal yi, ak wéy di yeesal kaaraange gi ci anam wi ñuy doxalee, li jëfandikukat bi di xaar, ak sàrti sàrt yi di jëm kanam.

njeextalu pexe

Liggéeyukaay yi ci làkk yi mën nañu gëna gaaw te duñu yàq deggoo gi.

Liggéeyukaay yi ci làkk yi mën nañu gëna gaaw te duñu yàq deggoo gi. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Dafay yaatal jëfandikoo gi ci làkk yi ak ci anam yi ñuy jokkoo.

Dafay yaatal jëfandikoo gi ci làkk yi ak ci anam yi ñuy jokkoo. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Ekip yi mën nañu gëna yàgg ci àtte ci jamono ji otomatisation di liggéey ci baamtu.

Ekip yi mën nañu gëna yàgg ci àtte ci jamono ji otomatisation di liggéey ci baamtu. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Ëlëgu Autoencoder yu néew ngir dindi ay màndarga

SAEs ñu ngi màgg ci jumtukaayi kaaraange yu am solo: gis njuuj njaaj, njuuj njaaj, wala konsept yu wóorul, ak doxal doxalin ci man-mani tëju. Jafe-jafe yi des nañu - xaaj man-man yi, ñàkka tabaxaat, ak firndeel ni man-man yi mat nañu. Xaarandil pexe tàggat yu gëna yomb (top-k ak gated SAEs), etiketu màndarga otomatik, ak boole ci tablo dashboard yiy saytu model suko defee operatër yi mëna xool li model biñ dugal di 'xalaat' ci jamono dëgg.

Doxal ci àdduna dëgg

AIU_PROTECTED_4_ dindi màndarga 'Pont bu Buntu Wurus' ci Claude 3 Sonet ak di doxal model bi ci yokk ko

Xamme man-mani yi am solo ci wàllu kaaraange lu ci melni njuuj njaaj, sycophancy, wala kode vulnérabilités ci biir model activations

Dajale neuron yu am maana yu bari ci màndarga yu bari yu am benn maana ngir saafara jafe-jafe yi

Direksioŋ bu am màndarga: dafay taal wala dindi màndarga konsept ngir doxal génnug model bi te doo tàggataat

Modèlu jëfandikoo

Autoencoders yu néew ngir dindi màndarga ci jëf

Anthropic dindi màndarga 'Pont bu Porte d'Or' ci Claude 3 Sonet ba noppi di doxal model bi ci yokk ko doole.

Claude _ Claude 3 Sonnet ak di doxal model bi ci yokk ko.

Autoencoders yu néew ngir dindi màndarga ci jëf

Xamme man-mani yi am solo ci wàllu kaaraange lu ci melni njuuj njaaj, sycophancy, wala kode vulnérabilités ci biir model activations.

Xamme man-mani yi am solo ci kaaraange lu melni njuuj njaaj, sycophancy, wala kode vulnérabilités ci biir model activations Ekip yi dañuy faral di am njariñ yu gëna baax suñu leeralee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.

Autoencoders yu néew ngir dindi màndarga ci jëf

Dajale neuron polisemantik yi ci màndarga yu bari yu am benn maana ngir saafara jafe-jafe yi.

Decomposing neurons polysemantic ci anam yu bari yu monosemantic ngir saafara superposition Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.

Autoencoders yu néew ngir dindi màndarga ci jëf

Feature steering: dafay taal wala dindi benn konsept ngir mëna doxal model bi te doo tàggataat.

Feature steering: clamping benn konsept ci wala off ngir doxal model outputs te duñu retraining Teams yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoon escalation nit ngir jafe-jafe yi, ak topp produit yi ak njuumte yi ci diir bi.

Risk yi ak balustrade yi

!

Lépp lu jaarul yoon mën na dugg ci rapoor yi, jàppale ci liggéey bi, wala ci njariñu gëstu bi.

!

Sensibilite bu gaaw mën na jur njariñ yu wuute ci laajte yu noonu mel.

!

Done yu am solo mën nañu feeñ sudee seytu jëfandikoo gi néew doole.

Roadmap ngir samp gi

1

Mandargal formaa génne gi, melokaan bi, ak standard kalite yi laata ngay dugal ko.

Mandargal formaa génne gi, melokaan bi, ak standard kalite yi laata ngay dugal ko. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

2

Tontu yu am solo ak balluwaay yu wóor saa yu dëggu bi di am solo.

Tontu yu am solo ak balluwaay yu wóor saa yu dëggu bi di am solo. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

3

Fexeel am barabu xool nit ñi ngir am njariñ yu am solo.

Fexeel am barabu xool nit ñi ngir am njariñ yu am solo. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

4

Toppal anami gacce yi ak di faral di tàggataat ay laaj wala def-liggéey.

Toppal anami gacce yi ak di faral di tàggataat ay laaj wala def-liggéey. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

Weyal di banneexu