Résumé
Sparse autoencoders (SAEs) jumtukaay la buy xaajale mbir yu jaxasoo yi ci biir reso neuronal ci benn xeetu mbir yu gëna set, yu nit ñi mëna tekki. Benn la ci pexe yi gëna am solo ngir ubbi 'kees bu ñuul bi' ngir gis ban konsept la model bi di fësal.
Sparse Autoencoders ngir mëna tekki, ab bloku tabax la bu am njeexital ci kalite model bi, njëgu infrastructure bi, latency bi, ak wóor ci escale bi.
Plongeur bu xóot
Ci biir transformateur bi, benn vecteur de activation dafay jaxase ay junni konsept ci benn yoon, te loolu tax na ñu koy jàng lu jafe. Autoencoder bu bariwul ay reso yu ndaw la yu am ñaari couche yuñ tàggat ngir defaraat activation yooyu jaaraleko ci couche bu nëbbu bu yaatu, waaye ak penalti bu bariwul buy forse yenn neuron yu bari yi ñuy fexe benn yoon. Ndax fitna googu, bépp yunit bu nëbbu defay yam ci benn konsept, lu mel ni ' wax ci Golden Gate Bridge' mbaa 'kodu Python'. Ci atum 2024 dafa yokk lii ba 3 Sonnet, génne ci lu tollu ci 34 milioŋ ciy màndarga, ba noppi DeepMind siiwal liggéey SAE bu méngoo. Suko defee gëstukat yi mën nañu tëye wala wàcce benn màndarga ngir saytu limuy def.
Gis-gis xarala
Benn SAE dafay xayma ab aktivasioŋ d-dimensionel ci ab couche bu nëbbu bu gëna yaatu (8x ba 100x lu gëna rëy), ba noppi defaraat original bi. Taggat yaram dafay wàññi njuumti tabaxaat boole ci L1 penalti ci activation yu nëbbu, luy ñaax sparsity suko defee unité yu bari nekk ci wetu zero. Variante yu melni TopK SAEs dañuy doolel sparsity ci saasi ci tëye K bi gëna mag ci liggéey, ak SAEs yu am buntu dañuy tàqale dogal biy fett ak magnitude, wàññi benn njuumte bu L1 dugal.
Xam Autoencoder yu néew ngir mëna tekki
Sparse autoencoders (SAEs) jumtukaay la buy xaajale mbir yu jaxasoo yi ci biir reso neuronal ci benn xeetu mbir yu gëna set, yu nit ñi mëna tekki. Benn la ci pexe yi gëna am solo ngir ubbi 'kees bu ñuul bi' ngir gis ban konsept la model bi di fësal. Sparse Autoencoders ngir mëna tekki, ab bloku tabax la bu am njeexital ci kalite model bi, njëgu infrastructure bi, latency bi, ak wóor ci escale bi. Ngir tabax xam-xam bu xóot, jàppal Sparse Autoencoders for Interpretability ni xeetu liggéey, du benn man-man: leeral njariñ yi nga bëgg, leeral xalaat yi, ak tàqale li sistem bi mëna def ci anam wu wóor ak li ba leegi soxla àtteb kàngam.
Ci jëf, ekip yu am doole yiy jëfandikoo Sparse Autoencoders ngir mëna Tekki, dañuy gëna baaxal architecture, done, ak tànneefi infrastructure ci wàllu wóor ak njëg. Dañuy bind kritër yu leer ngir am ndam, natt leen ci done yu dëggu ak def liggéey, ba noppi ñu baamtu ci anamu ñàkka mëna seetlu, du ci benn yoon benchmark wins. Mooy barab bi xam-xam theorie bi di soppiku nekk kàttan buy yàgg ci produit yi, ci politik yi ak ci liggéey yi.
Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw. Ci jamano jooju, Optimisation benn benchmark mën na nëbb ñakk kattan yu gëna yaatu ci sistem bi. Xeetu jëf bi gëna dëgër mooy boole gaawaayu jàngat ak disipline nguur: doxal pilote, jàpp firnde, siiwal dogal yi, ak wéy di yeesal kaaraange gi ci anam wi ñuy doxalee, li jëfandikukat bi di xaar, ak sàrti sàrt yi di jëm kanam.
njeextalu pexe
Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw.
Dogal yi architecture di jël dañuy indi njariñ ak njëgu liggéey bi ay at ci ginaaw. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Njàngalem xarala yi dafay jàppale ekip yi ñu tànn li gën, te baña yam ci li gëna bees daal.
Njàngalem xarala yi dafay jàppale ekip yi ñu tànn li gën, te baña yam ci li gëna bees daal. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Tanneef yu gëna baax ci wàllu ingeñër dina wàññi jafe-jafe yi ci wàllu wóor ci liggéey bi.
Tanneef yu gëna baax ci wàllu ingeñër dina wàññi jafe-jafe yi ci wàllu wóor ci liggéey bi. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Doxal ci àdduna dëgg
Anthropic 'Golden Gate Claude' demo, fu yokk benn man-mani SAE def model bi di royuwaale pont bi ci tontu bu nekk
Di génne ak etikete lu tollu ci 34 milioŋ ciy màndarga ci Claude 3 Sonet ngir xayma konsept yu melni sycophancy, njuumti kode, ak doxalin bu wóorul
Gis man-mani kaaraange yu am solo yu melni njuuj njaaj, tëddee, wala ëmbiit bu mëna lore buñu mëna saytu wala doxal ci diiru dugal
Debugging li waral benn model di juum ci xaaj ay dugal ci saytu ban man-man yuñ mëna tekki yuñ aktive ci benn laaj buñ jox
Modèlu jëfandikoo
Autoencoders yu néew ngir mëna tekki ci jëf
Anthropic 'Golden Gate Claude' demo, fu ñu yokk benn man-mani SAE moo tax model bi di royuwaale pont bi ci tontu bu nekk.
Anthropic's 'Golden Gate Claude' demo, fu yokk benn man-mani SAE def model bi di royuwaale pont bi ci tontu bu nekk. benefiis ak njuumte njëg ci diir bi.
Autoencoders yu néew ngir mëna tekki ci jëf
Di génne ak etikete lu tollu ci 34 milioŋ ciy màndarga ci Claude 3 Sonet ngir xayma konsept yu melni sycophancy, njuumti kode, ak doxalin bu wóorul.
Claude 3 Sonnet ngir xayma konsept yu melni sycophancy, njuumti kode, ak jeffin ju wóorul. Jamono di dox.
Autoencoders yu néew ngir mëna tekki ci jëf
Wut man-mani yu am solo ci wàllu kaaraange lu ci melni njuuj njaaj, tëddee, wala ëmbiit yu mëna lore yuñ mëna saytu wala doxal ci diiru dugal gi.
Gis man-mani yu am solo yu melni njuuj njaaj, njuuj njaaj, wala ëmbiit yu mëna lore yuñ mëna saytu wala di doxal ci diiru génne gi. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee ay pursàntaasu kalite ci kanam, tëye yoonu eskalaasioŋ nit ngir jafe-jafe yi, ba noppi topp njariñu liggéey ak njëgu njuumte ci diir bi.
Autoencoders yu néew ngir mëna tekki ci jëf
Debugging li waral ab model di juum ci xaaj ay dugal ci xool ban man-man yuñ mëna tekki yuñ aktive ci ab laaj buñ jox.
Debugging li waral benn model misclassifies inputs ci xool ban man-man yuñ mëna tekki yuñ aktive ci benn prompt buñ jox Teams yi dañuy faral di am njariñ yu gëna baax suñu joxee thresholds yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit yi ak njëgu njuumte yi ci diir bi.
Risk yi ak balustrade yi
Optimize benn benchmark mën na nëbb ñakk kattan yu gëna yaatu ci sistem bi.
Njëg li ñuy fay ci infrastructure yi ak ci toppatoo dañuy faral di suufeel.
Bu sistem yi di gëna xawa jafee xam, jafe-jafe yi am ci wàllu kaaraange ak seetlu mën nañu gëna bari.
Roadmap ngir samp gi
Mandargal latency, kalite, ak njëg yi laata ngay jëfandikoo.
Mandargal latency, kalite, ak njëg yi laata ngay jëfandikoo. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.
Benchmark ci biir sargal ak done yu dëggu.
Benchmark ci biir sargal ak done yu dëggu. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.
Jumtukaay bi di saytu njuumte yi, derive bi ak njeextalu jëfandikukat bi.
Jumtukaay bi di saytu njuumte yi, derive bi ak njeextalu jëfandikukat bi. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.
Waajal rollback ak yooni tontu ci jafe-jafe yi laata ngay eskale.
Waajal rollback ak yooni tontu ci jafe-jafe yi laata ngay eskale. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.