Ntụziaka nka

Ntinye aka LLM na nhazi ibu

Igwe njikwa nke na-ekpebi ụdị oyiri, GPU, ma ọ bụ azụ azụ kwesịrị ijikwa arịrịọ LLM ọ bụla na-abata, yana otu esi agbasa okporo ụzọ ka ọ nweghị otu ihe nkesa ga-ejupụta.

Nchịkọta

Igwe njikwa nke na-ekpebi ụdị oyiri, GPU, ma ọ bụ azụ azụ kwesịrị ijikwa arịrịọ LLM ọ bụla na-abata, yana otu esi agbasa okporo ụzọ ka ọ nweghị otu ihe nkesa ga-ejupụta. Emere nke ọma, ọ na-ebelata latency na ọnụ ahịa; Emeghị nke ọma, ọ na-ebute nkwụsị oge yana GPU ndị na-adịghị arụ ọrụ.

Ntinye aka nke LLM na nguzozi ibu bụ ngọngọ ụlọ ọrụ nka nke na-emetụta ịdịmma ụdị, ọnụ ahịa akụrụngwa, latency, na ntụkwasị obi n'ọ̀tụ̀tụ̀.

Ime miri emi

Ijere LLM ozi n'ọ̀tụ̀tụ̀ pụtara na-agba ọsọ ọtụtụ oyiri n'ofe ọtụtụ GPUs, na okporo ụzọ inference na-agbawa agbawa na-adaghị adaba-ọchịchọ dịgasị iche iche n'ogologo na ihe isi ike. Onye rawụta na-anọdụ n'ihu wee họrọ ebe ị ga-aga site na iji akara bara ụba karịa nke agba okirikiri. Ndị na-anya ụgbọ elu LLM nke oge a na-atụle omimi kwụ n'ahịrị, ebe nchekwa KV-cache, yana ma oyiri ejirilarị prefix ozugbo dabara adaba (mmekọrịta prefix-cache), yabụ arịrịọ nlebanya ga-agbada ebe cache ya bi. Ụfọdụ ndị na-anya ụgbọ mmiri na-ahọrọkwa ụdị ha ga-eji-na-eziga ajụjụ dị mfe na obere ihe nlereanya dị ọnụ ala yana ndị siri ike gaa na nke buru ibu (mbigharị ụdị). Idozi n'ibu na-emeziwanye nrụgide n'ofe oyiri ka ịzena ebe a na-ekpo ọkụ, sọpụrụ oke ọnụego, ma mee ka ọdụdụ ghara ịdị ala ka ị na-ebuli ihe dị mma na ojiji GPU.

Nghọta nka nka

Ndị na-ahụ maka ibu ibu na-eche na arịrịọ na-agbanwe agbanwe yana ọnụ ala ịkwaga - ụgha maka LLMs. Ihe ngosi mmepụta ọ bụla na-akwụ ụgwọ ngafe n'ihu, cache nke KV oyiri na-eme ka ọ 'nagide' maka nnọkọ. Ya mere, ndị na-anya ụgbọ elu na-ebuli elu maka cache hits: hashing ma ọ bụ ntunye oge ka mkparịta ụka na-eto eto na-eji igodo/ụkpụrụ echekwara kama ịtụgharị ha. Ha na-agụkwa telemetry backend dị ndụ (ihe na-echere, njupụta batch) kama ịbụ naanị ọnụ ọgụgụ arịrịọ, ebe ọ bụ na otu arịrịọ ogologo nwere ike karịa ọtụtụ ndị dị mkpụmkpụ.

Ịkwalite ntinye aka LLM na nhazi ibu

Igwe njikwa nke na-ekpebi ụdị oyiri, GPU, ma ọ bụ azụ azụ kwesịrị ijikwa arịrịọ LLM ọ bụla na-abata, yana otu esi agbasa okporo ụzọ ka ọ nweghị otu ihe nkesa ga-ejupụta. Emere nke ọma, ọ na-ebelata latency na ọnụ ahịa; Emeghị nke ọma, ọ na-ebute nkwụsị oge yana GPU ndị na-adịghị arụ ọrụ. Ntinye aka nke LLM na nguzozi ibu bụ ngọngọ ụlọ ọrụ nka nke na-emetụta ịdịmma ụdị, ọnụ ahịa akụrụngwa, latency, na ntụkwasị obi n'ọ̀tụ̀tụ̀. Iji wulite nghọta miri emi, na-emeso Inference Inference Routing na Load Balance dị ka ihe nlere arụ ọrụ, ọ bụghị otu njirimara: kọwapụta nsonaazụ achọrọ, dokwuo anya echiche, kewaa ihe sistemụ nwere ike ime nke ọma na ihe ka na-achọ mkpebi ndị ọkachamara.

Na omume, otu ndị siri ike na-eji ụzọ ntinye aka na LLM Inference Routing na Load Balance na-ebuli ụkpụrụ ụlọ, data na akụrụngwa megide ntụkwasị obi na ọnụ ahịa. Ha na-edepụta njirisi ịga nke ọma nke ọma, nwalee megide data ziri ezi yana usoro ọrụ, yana na-atụgharị dabere na usoro ọdịda ahụrụ karịa karịa mmeri otu oge. Nke a bụ ebe nghọta usoro ihe atụ na-atụgharị ghọọ ike na-adịgide adịgide n'ofe ngwaahịa, amụma na arụmọrụ.

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'otu oge ahụ, ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara. Ụzọ kachasị na-agbanwe agbanwe bụ ijikọ ọsọ nnwale na ịdọ aka ná ntị ọchịchị: ndị na-anya ụgbọ elu, ijide ihe akaebe, bipụta ndekọ mkpebi, na na-aga n'ihu na-emelite nchekwa dị ka omume nlereanya, atụmanya ndị ọrụ, na ihe iwu chọrọ.

Mmetụta atụmatụ

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ.

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ.

Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta.

Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Ọdịnihu nke ntinye aka LLM na nhazi ibu

Ntugharị ụzọ na-aghọ klaasị mbụ, akụrụngwa mmụta. Ọrụ dị ka Kubernetes 'Gateway API Extension Extension, nchịkọta mmepụta vLLM, na ndị na-anya ụgbọ elu LiteLLM/Envoy na-ahazi nhazi-maara nke ọma na nhazi ọnụ ahịa. Na-atụ anya usoro ntụgharị usoro ihe siri ike na nke siri ike (ụdị RouteLLM), kwụ n'ahịrị ndị kacha mkpa SLA, mmata ọtụtụ mpaghara na ntụpọ, yana atumatu amụtara nkwado na-edozi latency, ntinye, na ọnụ ahịa dollar ozugbo dị ka ụdị, ọnụahịa, na mgbanwe okporo ụzọ.

Mmejuputa n'ezie n'ụwa

Otu ikpo okwu chatbot na-atụnye mkparịta ụka nke ọ bụla na oyiri na-ejide cache KV ya, yabụ na-atụgharị na-esochi cache prefix wee zaghachi ngwa ngwa.

Sistemu ụdị RouteLLM na-eziga ajụjụ dị mfe na obere ihe nlereanya dị ọnụ ala wee gbasaa naanị ndị siri ike gaa n'ụdị oke, na-ebelata ọnụ ahịa na-enweghị obere mfu.

Ụzọ ndọtị Kubernetes ọnụ ụzọ ámá API site na ịdị omimi kwụ n'ahịrị GPU dị ndụ yana ọnọdụ cache kama ịgbara okirikiri dị larịị n'ofe pọd.

LiteLLM okporo ụzọ proxies gafee OpenAI, Anthropic, yana ụdị ndị nwere onwe ya nwere nguzozi nkwụghachi azụ na oke-oke-mmara mgbe otu onye na-eweta kwụsịrị.

Usoro mmejuputa

Ntinye aka LLM na nhazi ibu na omume

Otu ikpo okwu chatbot na-atụnye mkparịta ụka nke ọ bụla na oyiri na-ejide cache KV ya, yabụ na-atụgharị na-esochi cache prefix wee zaghachi ngwa ngwa.

Otu ikpo okwu chatbot na-etinye mkparịta ụka nke ọ bụla na oyiri na-ejide cache KV ya, yabụ na-atụgharị na-esochi cache prefix wee zaghachi ngwa ngwa Otu egwuregwu na-enweta nsonaazụ kacha mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-eme ka ụzọ mmadụ si abawanye maka ọnụ okwu, wee soro ma uru nrụpụta yana ụgwọ njehie ka oge na-aga.

Ntinye aka LLM na nhazi ibu na omume

Sistemu ụdị RouteLLM na-eziga ajụjụ dị mfe na obere ihe nlereanya dị ọnụ ala wee gbasaa naanị ndị siri ike gaa n'ụdị oke, na-ebelata ọnụ ahịa na-enweghị obere mfu.

Usoro ụdị RouteLLM na-eziga ajụjụ dị mfe na obere ihe atụ dị ọnụ ala ma na-abawanye naanị ndị siri ike gaa n'ụdị oke, ịbelata ọnụ ahịa na obere mfu dị mma Otu egwuregwu na-enwetakarị nsonaazụ kacha mma mgbe ha kọwapụta ọnụ ụzọ dị mma n'ihu, debe ụzọ ịrị elu mmadụ maka ikpe ihu, ma soro ma uru nrụpụta yana ụgwọ njehie n'ime oge.

Ntinye aka LLM na nhazi ibu na omume

Ụzọ ndọtị Kubernetes ọnụ ụzọ ámá API site na ịdị omimi kwụ n'ahịrị GPU dị ndụ yana ọnọdụ cache kama ịgbara okirikiri dị larịị n'ofe pọd.

Kubernetes Gateway API Inference Extzọ ụzọ ndọtị site na ịdị ndụ GPU kwụ n'ahịrị dị omimi na ọnọdụ cache kama ịgbachi nkịtị n'ofe pods Otu dị iche iche na-enwetakarị nsonaazụ kacha mma mgbe ha kọwapụtara ọnụ ụzọ dị mma n'ihu, na-echekwa ụzọ mmụba mmadụ maka ikpe ọnụ, ma soro ma uru nrụpụta yana ụgwọ njehie ka oge na-aga.

Ntinye aka LLM na nhazi ibu na omume

LiteLLM okporo ụzọ proxies gafee OpenAI, Anthropic, yana ụdị ndị nwere onwe ya nwere nguzozi nkwụghachi azụ na oke-oke-mmara mgbe otu onye na-eweta kwụsịrị.

LiteLLM proxies trafic gafee OpenAI, Anthropic, yana ụdị ndị a na-akwado onwe ya na nkwụghachi azụ na oke-amamihe nguzozi mgbe otu onye na-eweta trottles Otu na-enwetakarị nsonaazụ ka mma mgbe ha kọwapụta ọnụ ụzọ dị mma n'ihu, na-edobe ụzọ mmụba mmadụ maka ọnụ ahịa ọnụ, ma soro ma na-eri oge abụọ arụpụtaghị ihe.

Ihe ize ndụ & okporo ụzọ nche

!

Ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara.

!

A na-eledakarị ihe akụrụngwa na ụgwọ ọrụ anya.

!

Ọdịiche nchekwa na nleba anya nwere ike itolite ka sistemu na-adịwanye mgbagwoju anya.

Map mmejuputa

1

Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya.

Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

2

Benchmark n'okpuru ibu dị adị na ọnọdụ data.

Benchmark n'okpuru ibu dị adị na ọnọdụ data. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

3

Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ.

Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

4

Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa.

Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

Nọgide na-eme nchọpụta