Ntụziaka nka

Triton Inference Server

Triton Inference Server bụ NVIDIA's open-source nyiwe maka ibuga na ijere ụdị AI ozi na mmepụta n'ọtụtụ.

Nchịkọta

Triton Inference Server bụ NVIDIA's open-source nyiwe maka ibuga na ijere ụdị AI ozi na mmepụta n'ọtụtụ. Ọ dị mkpa n'ihi na ọ na-ahazi ọtụtụ ụdị - n'ofe usoro dị iche iche - ka a na-akwado, chịkọta ma nweta ya n'azụ otu API dị mma.

Triton Inference Server bụ ngọngọ ụlọ ọrụ teknụzụ na-emetụta ịdịmma ụdị, ọnụ ahịa akụrụngwa, latency, na ntụkwasị obi n'ọtụtụ.

Ime miri emi

Triton na-anọdụ n'etiti ụdị gị zụrụ azụ yana ngwa ndị na-akpọ ha. Ọ na-ebu ụdị si na 'ebe nchekwa ihe nlereanya' ma na-ejere ha ozi karịa HTTP/REST na gRPC. Njirimara ya pụtara ìhè bụ usoro-agnostic: otu ihe atụ Triton nwere ike ijere PyTorch, TensorFlow, ONNX, TensorRT, na ọbụna Python ma ọ bụ ndabere omenala. Ikike ndị dị mkpa gụnyere batching ike, nke na-akpakọrịta arịrịọ mbata na-abịaru nso n'oge iji GPU rụọ ọrụ nke ọma; ogbugbu ụdị n'otu oge, na-agba ọtụtụ ụdị ma ọ bụ ọtụtụ mbipụta na otu GPU; na ụdị ensembles/azụmahịa-nchekwaa scripting, nke yinye preprocessing, inference, na postprocessing n'ime otu sava-n'akụkụ pipeline. Ọ na-ekpughe metrics Prometheus, na-akwado ụdị ụdị, yana akpịrịkpa nke ọma na Kubernetes.

Nghọta nka nka

Batching na-agbanwe agbanwe bụ isi ihe nrụnye ntinye. GPU na-arụ ọrụ nke ọma nnukwu batches, mana arịrịọ mmepụta na-abịarute otu n'otu oge. Triton na-ejide arịrịọ maka obere windo nhazi (dịka, milliseconds ole na ole), na-ejikọta ha na batch, na-eme otu ntinye, wee kewaa rịzọlt azụ nye onye ọ bụla na-akpọ oku. Nke a na-ebuli ojiji GPU n'ụzọ dị egwu yana naanị obere ọnụ ahịa latency. Ogbugbu na-eme n'otu oge yana otu ihe atụ nke ụdị ọ bụla na-ahapụ otu GPU ka ọ nọrọ n'ọrụ n'ofe ọtụtụ ụdị n'otu oge.

Nnabata Triton Inference Server

Triton Inference Server bụ NVIDIA's open-source nyiwe maka ibuga na ijere ụdị AI ozi na mmepụta n'ọtụtụ. Ọ dị mkpa n'ihi na ọ na-ahazi ọtụtụ ụdị - n'ofe usoro dị iche iche - ka a na-akwado, chịkọta ma nweta ya n'azụ otu API dị mma. Triton Inference Server bụ ngọngọ ụlọ ọrụ teknụzụ na-emetụta ịdịmma ụdị, ọnụ ahịa akụrụngwa, latency, na ntụkwasị obi n'ọtụtụ. Iji wuo nghọta miri emi, na-emeso Triton Inference Server dị ka ihe nlereanya na-arụ ọrụ, ọ bụghị otu njirimara: kọwaa nsonaazụ achọrọ, dokwuo anya echiche, ma kewaa ihe sistemụ nwere ike ime nke ọma na ihe ka na-achọ mkpebi ndị ọkachamara.

Na omume, ndị otu siri ike na-eji Triton Inference Server na-ebuli ụlọ, data, na nhọrọ akụrụngwa megide ntụkwasị obi na ọnụ ahịa. Ha na-edepụta njirisi ịga nke ọma nke ọma, nwalee megide data ziri ezi yana usoro ọrụ, yana na-atụgharị dabere na usoro ọdịda ahụrụ karịa karịa mmeri otu oge. Nke a bụ ebe nghọta usoro ihe atụ na-atụgharị ghọọ ike na-adịgide adịgide n'ofe ngwaahịa, amụma na arụmọrụ.

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'otu oge ahụ, ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara. Ụzọ kachasị na-agbanwe agbanwe bụ ijikọ ọsọ nnwale na ịdọ aka ná ntị ọchịchị: ndị na-anya ụgbọ elu, ijide ihe akaebe, bipụta ndekọ mkpebi, na na-aga n'ihu na-emelite nchekwa dị ka omume nlereanya, atụmanya ndị ọrụ, na ihe iwu chọrọ.

Mmetụta atụmatụ

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ.

Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ.

Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta.

Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Ọdịnihu nke Triton Inference Server

Triton na-aga n'ihu na nnukwu ihe nlere anya na ibu ọrụ mmepụta, na-ejikọta ya na TensorRT-LLM na ụdị vLLM maka mgbasa ozi token dị elu. Na-atụ anya nkwado miri emi maka ozi ekewapụrụ, multi-GPU na multi-node tensor parallelism, KV-cache-aware routing, na ahaziri OpenAI-ngwụcha dakọtara. Dị ka òtù dị iche iche na-eme ọtụtụ ụdị, ọrụ Triton dị ka oyi akwa ejikọtara ọnụ, nke a na-ahụ anya na Kubernetes na NVIDIA Dynamo stack ga-eto.

Mmejuputa n'ezie n'ụwa

Ịnweta ụdị nchọta wayo, ụdị nkwanye, na nhazi ihe onyonyo n'otu sava GPU na-ekekọrịta site na iji mmegbu ụdịdị

Iji batching ike na-eje ozi API nnabata onyonyo dị elu ka achịkọta arịrịọ agbasasịworo maka ntinye GPU dị mma.

Ịmepụta mkpokọta akụkụ nkesa nke na-arụ ọrụ nhazi ihe onyonyo, ihe nchọpụta TensorRT, yana akara nbizigharị n'ime otu pipeline Triton.

Na-ebuga LLM nwere azụ azụ TensorRT-LLM na Triton ka ọ na-ebugharị nzaghachi chatbot nye puku kwuru puku ndị ọrụ na-emekọ ihe ọnụ.

Usoro mmejuputa

Triton Inference Server na omume

Bochum ụdị nchọta wayo, ụdị nkwanye, na nhazi ihe onyonyo n'otu sava GPU ekekọrịtara site na iji mmegbu ụdịdị.

Bochum ụdị nchọta aghụghọ, ụdị nkwanye, na ihe nhụsianya onyonyo n'otu ihe nkesa GPU na-eji otu oge eme ihe n'otu oge na-enweta nsonaazụ kacha mma mgbe ha kọwapụtara ọnụ ụzọ dị mma n'ihu, debe ụzọ mmụba mmadụ maka ikpe ọnụ, ma soro ma uru nrụpụta yana ụgwọ njehie ka oge na-aga.

Triton Inference Server na omume

Iji batching ike na-eje ozi API njirimara onyonyo dị elu nke mere na-achịkọta arịrịọ agbasasịworo maka ntinye GPU nke ọma.

Iji batching ike na-eje ozi API nnabata ihe onyonyo dị elu ka a na-achịkọta arịrịọ gbasasịa maka ndị otu GPU dị mma nke ọma na-enwetakarị nsonaazụ kacha mma mgbe ha kọwapụtara ọnụ ụzọ dị mma n'ihu, debe ụzọ mmụba mmadụ maka ikpe ọnụ, wee soro ma uru nrụpụta yana ụgwọ njehie ka oge na-aga.

Triton Inference Server na omume

Ịmepụta mkpokọta akụkụ nkesa nke na-arụ ọrụ nhazi ihe onyonyo, ihe nchọpụta TensorRT, yana akara nbizigharị n'ime otu pipeline Triton.

Ịmepụta mkpokọta ihe nkesa nke na-arụ ọrụ nhazi ihe oyiyi, onye nchọpụta TensorRT, na akara postprocessing na otu Triton pipeline Teams na-enwetakarị nsonaazụ ka mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-eme ka ụzọ mmadụ dịkwuo elu maka ikpe ikpe, ma soro ma uru mmepụta ihe na ụgwọ njehie na oge.

Triton Inference Server na omume

Na-ebuga LLM nwere azụ azụ TensorRT-LLM na Triton ka ọ na-ebugharị nzaghachi chatbot nye puku kwuru puku ndị ọrụ na-emekọ ihe.

Ibunye LLM na TensorRT-LLM backend na Triton ka ị na-ebugharị nzaghachi chatbot nye puku kwuru puku ndị ọrụ na-arụkọ ọrụ ọnụ na-enwetakarị nsonaazụ kacha mma mgbe ha kọwapụtara ọnụ ụzọ dị mma n'ihu, debe ụzọ mmụba mmadụ maka ikpe ọnụ, wee soro ma uru nrụpụta yana ụgwọ njehie n'ime oge.

Ihe ize ndụ & okporo ụzọ nche

!

Ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara.

!

A na-eledakarị ihe akụrụngwa na ụgwọ ọrụ anya.

!

Ọdịiche nchekwa na nleba anya nwere ike itolite ka sistemu na-adịwanye mgbagwoju anya.

Map mmejuputa

1

Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya.

Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

2

Benchmark n'okpuru ibu dị adị na ọnọdụ data.

Benchmark n'okpuru ibu dị adị na ọnọdụ data. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

3

Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ.

Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

4

Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa.

Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

Nọgide na-eme nchọpụta