Ntụziaka nka

Mpempe akwụkwọ akpaaka maka nkọwa

Sparse autoencoders (SAEs) bụ ngwa ọrụ na-adọwapụta mgbanaka n'ime ime nke netwọkụ akwara ka ọ bụrụ njiri dị ọcha nke ukwuu, nke mmadụ nwere ike ịkọwa.

Nchịkọta

Sparse autoencoders (SAEs) bụ ngwa ọrụ na-adọwapụta mgbanaka n'ime ime nke netwọkụ akwara ka ọ bụrụ njiri dị ọcha nke ukwuu, nke mmadụ nwere ike ịkọwa. Ha bụ otu n'ime usoro ndị na-eduga maka imepe 'igbe ojii' na ịhụ ihe echiche nke ihe nlereanya na-anọchi anya ya.

Sparse Autoencoders for Interpretability bụ ngọngọ ụlọ ọrụ nka nke na-emetụta ịdịmma nlereanya, ọnụ ahịa akụrụngwa, nkwụsịtụ, na ntụkwasị obi n'ọ̀tụ̀tụ̀.

Ime miri emi

N'ime ihe ntụgharị, otu vector activation na-agwakọta ọtụtụ puku echiche n'otu oge, nke na-eme ka ọ sie ike ịgụ. A sparse autoencoder bụ obere netwọkụ nwere akwa abụọ a zụrụ azụ iji wughachi ọrụ ndị ahụ site na oyi akwa zoro ezo, mana na ntaramahụhụ na-adịghị mma na-amanye naanị ole na ole n'ime ọtụtụ neuron ya ịgba ọkụ n'otu oge. N'ihi nrụgide ahụ, nkeji ọ bụla zoro ezo na-achọ ọkachamara n'otu echiche, dị ka 'nkwupụta nke Golden Gate Bridge' ma ọ bụ 'Python code'. Na 2024 Anthropic tụbara nke a ka ọ bụrụ Claude 3 Sonnet, na-ewepụta ihe dị ka nde atụmatụ 34, yana OpenAI na DeepMind bipụtara ọrụ SAE yiri ya. Ndị na-eme nchọpụta nwere ike mezie otu atụmatụ elu ma ọ bụ gbadaa iji nwalee ihe ọ na-eme.

Nghọta nka nka

Otu SAE na-esetịpụ nkwalite d-akụkụ n'ime oyi akwa zoro ezo sara mbara (na-abụkarị 8x ruo 100x buru ibu), wee wughachi nke mbụ. Ọzụzụ na-ebelata mperi nrụgharị gbakwunyere ntaramahụhụ L1 na mgbake ezoro ezo, nke na-akwado spasity ka ọtụtụ nkeji nọrọ nso efu. Ndị dị iche iche dị ka TopK SAE na-amanye sparsity ozugbo site n'idebe naanị K kasị arụ ọrụ, na gated SAE kewapụrụ mkpebi ịgba ọkụ site na ịdị ukwuu, na-ebelata nhụsianya nke usoro L1 na-ewebata.

Mastering Sparse Autoencoders maka nkọwa

Sparse autoencoders (SAEs) bụ ngwa ọrụ na-adọwapụta mgbanaka n'ime ime nke netwọkụ akwara ka ọ bụrụ njiri dị ọcha nke ukwuu, nke mmadụ nwere ike ịkọwa. Ha bụ otu n'ime usoro ndị na-eduga maka imepe 'igbe ojii' na ịhụ ihe echiche nke ihe nlereanya na-anọchi anya ya. Sparse Autoencoders for Interpretability bụ ngọngọ ụlọ ọrụ nka nke na-emetụta ịdịmma nlereanya, ọnụ ahịa akụrụngwa, nkwụsịtụ, na ntụkwasị obi n'ọ̀tụ̀tụ̀. Iji wuo nghọta miri emi, na-emeso Sparse Autoencoders for Interpretability dị ka ihe nlereanya na-arụ ọrụ, ọ bụghị otu njirimara: kọwaa nsonaazụ achọrọ, dokwuo anya echiche, ma kewaa ihe sistemụ nwere ike ime nke ọma na ihe ka na-achọ mkpebi ndị ọkachamara.

Na omume, ndị otu siri ike na-eji Sparse Autoencoders maka ịkọwapụta na-ebuli ụkpụrụ ụlọ, data na akụrụngwa megide ntụkwasị obi na ọnụ ahịa. Ha na-edepụta njirisi ịga nke ọma nke ọma, nwalee megide data ziri ezi yana usoro ọrụ, yana na-atụgharị dabere na usoro ọdịda ahụrụ karịa karịa mmeri otu oge. Nke a bụ ebe nghọta usoro ihe atụ na-atụgharị ghọọ ike na-adịgide adịgide n'ofe ngwaahịa, amụma na arụmọrụ.

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'otu oge ahụ, ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara. Ụzọ kachasị na-agbanwe agbanwe bụ ijikọ ọsọ nnwale na ịdọ aka ná ntị ọchịchị: ndị na-anya ụgbọ elu, ijide ihe akaebe, bipụta ndekọ mkpebi, na na-aga n'ihu na-emelite nchekwa dị ka omume nlereanya, atụmanya ndị ọrụ, na ihe iwu chọrọ.

Mmetụta atụmatụ

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ.

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ.

Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta.

Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Ọdịnihu nke Sparse Autoencoders maka nkọwa

Na-atụ anya na SAE ga-esi n'ọchịchọ nyocha gaa na nyocha nke bara uru na ngwá ọrụ nchekwa, gụnyere dashboards na-edepụta atụmatụ ma chọpụta sekit aghụghọ ma ọ bụ enweghị nchekwa. Nsogbu mepere emepe gụnyere 'nhazi nkewa' (otu echiche na-agbaji n'ime ọtụtụ), atụmatụ efu, yana ọnụ ahịa ọzụzụ SAE na ụdị ọ bụla nke oke ala. Ntuziaka ọhụrụ dị ka crosscoders, transcoders, na matryoshka SAE bu n'obi weghara mgbakọ n'ofe ọkwa na n'ọtụtụ granularities ozugbo.

Mmejuputa n'ezie n'ụwa

Anthropic's 'Golden Gate Claude' ngosi, ebe ịkwalite otu njirimara SAE mere ka ihe nlereanya ahụ jiri nlezianya na-ezo aka akwa mmiri na nzaghachi ọ bụla.

Ịwepụ na ịkpọ aha ihe ruru nde 34 na Claude 3 Sonnet ka ọ bụrụ maapụ echiche dị ka sycophancy, njehie koodu, na omume adịghị mma.

Ịchọta atụmatụ dị mkpa maka nchekwa dị ka aghụghọ, nhụsianya, ma ọ bụ ọdịnaya dị ize ndụ nke enwere ike nyochaa ma ọ bụ duzie n'oge mbugharị.

Nchọpụta ihe kpatara ihe nlereanya ji akọwahie ihe ndenye site n'inyocha atụmatụ ndị enwere ike ịtụgharị n'ọrụ n'oge enyere

Usoro mmejuputa

Sparse Autoencoders maka nkọwa na omume

Anthropic's 'Golden Gate Claude' ngosi, ebe nkwalite otu njirimara SAE mere ka ihe nlereanya ahụ jiri nlezianya na-ezo aka akwa mmiri na nzaghachi ọ bụla.

Anthropic's 'Golden Gate Claude' ngosi, ebe ịkwalite otu njirimara SAE mere ka ihe nlereanya ahụ jiri nlezianya na-ezo aka n'àkwà mmiri na nzaghachi ọ bụla Otu egwuregwu na-enwetakarị nsonaazụ ka mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-eme ka ụzọ mmadụ siwanye elu maka ọnụ ahịa ọnụ, ma soro ụzọ abụọ na-efu arụpụta ọrụ.

Sparse Autoencoders maka nkọwa na omume

Ịwepụta na ịkpọ aha ihe ruru nde 34 na Claude 3 Sonnet ka ị nweta maapụ echiche dị ka sycophancy, njehie koodu, na omume adịghị mma.

Ịwepụta na ịkpọ aha ihe dị ka nde 34 na Claude 3 Sonnet iji maapụ echiche dị ka sycophancy, njehie koodu, na omume adịghị mma Otu egwuregwu na-enwetakarị nsonaazụ kacha mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-edebe ụzọ ịrị elu mmadụ maka ikpe ikpe, ma soro ma uru nrụpụta na ụgwọ njehie na oge.

Sparse Autoencoders maka nkọwa na omume

Ịchọta atụmatụ dị mkpa maka nchekwa dị ka aghụghọ, nhụsianya, ma ọ bụ ọdịnaya dị ize ndụ nke enwere ike nyochaa ma ọ bụ duzie n'oge ibugharị.

Ịchọta atụmatụ dị mkpa maka nchekwa dị ka aghụghọ, mkparị, ma ọ bụ ọdịnaya dị ize ndụ nke enwere ike nyochaa ma ọ bụ duzie n'oge mbugharị Otu dị iche iche na-enwetakarị nsonaazụ ka mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-edebe ụzọ ịrị elu mmadụ maka ikpe ikpe, ma soro ma uru nrụpụta na ụgwọ njehie na oge.

Sparse Autoencoders maka nkọwa na omume

Nchọpụta ihe kpatara ihe nlereanya ji akọwahie ihe ndenye site n'inyocha atụmatụ ndị enwere ike ịtụgharị n'ọrụ n'oge enyere.

Nchọpụta ihe kpatara ihe nlere ji akọwahie ihe ntinye site na nyocha nke atụmatụ ndị a na-atụgharị n'ọrụ na-arụ ọrụ na ngwa ngwa enyere Otu dị iche iche na-enwetakarị nsonaazụ kacha mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-edebe ụzọ ịrị elu nke mmadụ maka ikpe ikpe, ma soro ma uru nrụpụta na ụgwọ njehie n'ime oge.

Ihe ize ndụ & okporo ụzọ nche

!

Ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara.

!

A na-eledakarị ihe akụrụngwa na ụgwọ ọrụ anya.

!

Ọdịiche nchekwa na nleba anya nwere ike itolite ka sistemu na-adịwanye mgbagwoju anya.

Map mmejuputa

1

Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya.

Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

2

Benchmark n'okpuru ibu dị adị na ọnọdụ data.

Benchmark n'okpuru ibu dị adị na ọnọdụ data. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

3

Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ.

Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

4

Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa.

Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

Nọgide na-eme nchọpụta