Ntụziaka nka

RMSNorm na Pre-Layer Normalization

RMSNorm bụ oyi akwa normalization dị fechaa nke na-eweghachi ọrụ site na mgbọrọgwụ ha pụtara square, yana ebe a na-emezi ihe tupu oyi akwa na-aga n'ihu sublayer ọ bụla karịa ka emechaa.

Nchịkọta

RMSNorm bụ oyi akwa normalization dị fechaa nke na-eweghachi ọrụ site na mgbọrọgwụ ha pụtara square, yana ebe a na-emezi ihe tupu oyi akwa na-aga n'ihu sublayer ọ bụla karịa ka emechaa. Ha na-ejikọ ọnụ na-eme ka igwe ngbanwe dị omimi na-azụ nke ọma na-enweghị aghụghọ aghụghọ.

RMSNorm na Pre-Layer Normalisation bụ ngọngọ ụlọ ọrụ nka nke na-emetụta ịdịmma nlereanya, ọnụ ahịa akụrụngwa, nkwụsịtụ, na ntụkwasị obi n'ogo.

Ime miri emi

Standard LayerNorm na-ewepụ ihe ọ pụtara wee kewaa site na ọkọlọtọ ọkọlọtọ gafee vector atụmatụ, wee tinye usoro mmụta na mgbanwe. RMSNorm, nke Zhang na Sennrich webatara na 2019, tụfuru ihe na-akpachaghị anya na nhụsianya kpamkpam: ọ na-ekewa vector ọ bụla site na mgbọrọgwụ n'akụkụ akụkụ nke ihe ya wee na-amụba site na uru njiri mara nke ọ bụla. Nke a na-ewepụ otu ọnụ ọgụgụ na ọtụtụ arụmọrụ, na-egbutu ịgbakọ site na 10-50% na oyi akwa nkịtị ka ọ dabara nke ọma. Iche iche, ntinye 'Pre-LN' (usoro tupu nlebara anya / MLP, nke nwere ụzọ dị ọcha gbara ya gburugburu) na-edobe ogo gradient na mbido, yabụ ụdị dị ka GPT-3, LLAMA, na PaLM ụgbọ oloko na-enweghị mmụta-ọnụego ọkụ hacks nke mbụ Post-LN transformer chọrọ.

Nghọta nka nka

Maka vector x nke akụkụ d, RMSNorm na-agbakọ x_i * g_i / sqrt ((1/d) * nchikota (x_j^2) + epsilon), ebe g bụ vector uru mmụta. Enweghị mwepu pụtara na enweghị nhụsianya. N'ihi na iyi nke fọdụrụ na ngọngọ Pre-LN na-agafe nhazi ahụ, ụzọ njirimara adịghị emetụ ya aka na gradients na-asọpụta ozugbo site na mmepụta gaa na ntinye, nke mere na nchịkọta dị omimi na-agbakọta.

Nna-ukwu RMSNorm na Nhazi Nhazi nke Pre-Layer

RMSNorm bụ oyi akwa normalization dị fechaa nke na-eweghachi ọrụ site na mgbọrọgwụ ha pụtara square, yana ebe a na-emezi ihe tupu oyi akwa na-aga n'ihu sublayer ọ bụla karịa ka emechaa. Ha na-ejikọ ọnụ na-eme ka igwe ngbanwe dị omimi na-azụ nke ọma na-enweghị aghụghọ aghụghọ. RMSNorm na Pre-Layer Normalisation bụ ngọngọ ụlọ ọrụ nka nke na-emetụta ịdịmma nlereanya, ọnụ ahịa akụrụngwa, nkwụsịtụ, na ntụkwasị obi n'ogo. Iji wuo nghọta miri emi, na-emeso RMSNorm na Pre-Layer Normalisation dị ka ihe nlere anya na-arụ ọrụ, ọ bụghị otu njirimara: kọwaa nsonaazụ achọrọ, dokwuo anya echiche, ma kewaa ihe sistemụ nwere ike ime nke ọma na ihe ka na-achọ mkpebi ndị ọkachamara.

Na omume, otu ndị siri ike na-eji RMSNorm na Pre-Layer Normalisation na-ebuli ụkpụrụ ụlọ, data na akụrụngwa megide ntụkwasị obi na ọnụ ahịa. Ha na-edepụta njirisi ịga nke ọma nke ọma, nwalee megide data ziri ezi yana usoro ọrụ, yana na-atụgharị dabere na usoro ọdịda ahụrụ karịa karịa mmeri otu oge. Nke a bụ ebe nghọta usoro ihe atụ na-atụgharị ghọọ ike na-adịgide adịgide n'ofe ngwaahịa, amụma na arụmọrụ.

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'otu oge ahụ, ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara. Ụzọ kachasị na-agbanwe agbanwe bụ ijikọ ọsọ nnwale na ịdọ aka ná ntị ọchịchị: ndị na-anya ụgbọ elu, ijide ihe akaebe, bipụta ndekọ mkpebi, na na-aga n'ihu na-emelite nchekwa dị ka omume nlereanya, atụmanya ndị ọrụ, na ihe iwu chọrọ.

Mmetụta atụmatụ

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ.

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ.

Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta.

Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Ọdịnihu nke RMSNorm na nhazi nke pre-Layer

RMSNorm bụ ihe ndabara na ọtụtụ LLM dị arọ mepere emepe (LLaMA, Mistral, Qwen, Gemma), yabụ na-atụ anya na ọ ga-abụ ọkọlọtọ. Nchọpụta na-emezi usoro nhazi ahụ: QK-norm na-emetụta RMSNorm na ajụjụ nlebara anya na igodo iji mebie uto logit, ụfọdụ ụlọ nyocha na-ejikọta pre- na post-norm ('sandwich' ma ọ bụ 'peri-LN') maka nkwụsi ike na nha trillion-parameter. Mkpụrụ akụrụngwa na-aga n'ihu na-ejikọta ọrụ ahụ maka ọsọ.

Mmejuputa n'ezie n'ụwa

LLAMA, Mistral, na Qwen niile dochie LayerNorm na RMSNorm iji kpụọ nkụchi obi na akara ọ bụla.

Pre-LN na-ahapụ ụdị ụdị GPT ka ọ zụọ ya na-enweghị oke mmụta mmụta nke 2017 Post-LN transformer chọrọ.

QK-normalization na-eji RMSNorm na ajụjụ nlebara anya na igodo iji kwụsị ịgbawa n'ụdị buru ibu.

Ndị na-agbanwe ekwentị mkpanaaka na ihu na-anakwere RMSNorm n'ihi na idobe isi na enweghị isi na-ebelata okporo ụzọ ebe nchekwa

Usoro mmejuputa

RMSNorm na Pre-Layer Normalization na omume

LLAMA, Mistral, na Qwen niile dochie LayerNorm na RMSNorm iji kpụọ latency inference na akara ọ bụla.

LLMA, Mistral, na Qwen niile dochie LayerNorm na RMSNorm iji kpụọ latency inference na akara ngosi ọ bụla Otu egwuregwu na-enwetakarị nsonaazụ kacha mma mgbe ha kọwapụtara ọnụ ụzọ dị mma n'ihu, debe ụzọ mmụba mmadụ maka ikpe ọnụ, wee soro ma uru nrụpụta yana ụgwọ njehie n'ime oge.

RMSNorm na Pre-Layer Normalization na omume

Pre-LN na-ahapụ ụdị ụdị GPT ka ha zụọ azụ na-enweghị oke mmụta-ọnụego mgbanwe nke 2017 Post-LN transformer chọrọ.

Pre-LN na-ahapụ ụdị ụdị GPT na-azụ na-enweghị ọkụ mmụta-ọnụego nke 2017 Post-LN transformer chọrọ Otu dị iche iche na-enwetakarị nsonaazụ ka mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-edebe ụzọ mmụba mmadụ maka ikpe ikpe, ma soro ma uru nrụpụta na ụgwọ njehie n'ime oge.

RMSNorm na Pre-Layer Normalization na omume

QK-normalization na-eji RMSNorm na ajụjụ nlebara anya na igodo iji kwụsị ịgbawa n'ụdị buru ibu.

QK-normalization na-eji RMSNorm na ajụjụ nlebara anya na igodo iji kwụsị logits site na ịgbawa n'ụdị buru ibu Otu dị iche iche na-enweta nsonaazụ kacha mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-edobe ụzọ ịrị elu mmadụ maka ikpe ikpe, ma soro ma uru nrụpụta yana ụgwọ njehie na oge.

RMSNorm na Pre-Layer Normalization na omume

Ndị na-agbanwe ekwentị mkpanaaka na ihu na-anakwere RMSNorm n'ihi na idobe isi na enweghị isi na-ebelata okporo ụzọ ebe nchekwa.

Ndị na-atụgharị ekwentị na ọnụ na-anakwere RMSNorm n'ihi na ịdaba n'ụzọ na-enweghị isi na-ebelata okporo ụzọ ebe nchekwa Otu egwuregwu na-enwetakarị nsonaazụ ka mma mgbe ha kọwapụtara ọnụ ụzọ dị mma n'ihu, na-eme ka ụzọ mmadụ si abawanye maka ọnụ ọnụ, ma soro ma uru nrụpụta yana ụgwọ njehie na oge.

Ihe ize ndụ & okporo ụzọ nche

!

Ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara.

!

A na-eledakarị ihe akụrụngwa na ụgwọ ọrụ anya.

!

Ọdịiche nchekwa na nleba anya nwere ike itolite ka sistemu na-adịwanye mgbagwoju anya.

Map mmejuputa

1

Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya.

Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

2

Benchmark n'okpuru ibu dị adị na ọnọdụ data.

Benchmark n'okpuru ibu dị adị na ọnọdụ data. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

3

Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ.

Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

4

Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa.

Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

Nọgide na-eme nchọpụta