Nchịkọta
TensorRT bụ ọba akwụkwọ NVIDIA na-achịkọta netwọkụ akwara azụrụ n'ime injin kachasị mma nke na-agba ọsọ ọsọ na NVIDIA GPUs. Ọ dị mkpa n'ihi na otu ihe nlereanya ahụ nwere ike na-agba ọsọ 2-6x ngwa ngwa na ọnụ ala n'oge ntinye aka na-agbanweghị ihe ọ na-ebu amụma.
TensorRT na Inference Engines bụ ngọngọ ụlọ ọrụ nka nke na-emetụta ịdịmma ụdị, ọnụ ahịa akụrụngwa, latency, na ntụkwasị obi n'ọ̀tụ̀tụ̀.
Ime miri emi
Injin inference na-ewere ụdị a zụrụ azụ wee degharịa ya maka ogbugbu kacha ngwa ngwa na ngwaike ebumnuche. TensorRT na-eme nke a maka NVIDIA GPU site n'ọtụtụ usoro. Ọ na-eme ngwakọta oyi akwa, na-ejikọta ọrụ dị ka convolution, bias-add, na ReLU n'ime otu GPU kernel iji belata okporo ụzọ ebe nchekwa. Ọ na-emetụta nhazi nhazi nkenke, na-agbada site na FP32 ruo FP16 ma ọ bụ INT8 (yana FP8 na Hopper) ka ọ na-echekwa izi ezi. Ọ na-emegharị kernel auto-tuning, benchmarking ọtụtụ mmejuputa iwu nke ọ bụla oyi akwa na gị kpọmkwem GPU na-ewere kasị ọsọ. Nsonaazụ bụ faịlụ 'engine' nke edobere n'otu ụkpụrụ ụlọ GPU. TensorRT-LLM na-agbatị nke a site na oghere KV-peeji, batching ụgbọ elu, yana tensor parallelism maka ụdị asụsụ buru ibu.
Nghọta nka nka
Nnukwu ọsọ ọsọ na-abịa site na aghụghọ abụọ. Ngwakọta kernel na-ewepụ njem okirikiri iji belata ebe nchekwa GPU zuru ụwa ọnụ site na idobe nsonaazụ etiti na ndekọ ngwa ngwa yana ebe nchekwa ịkekọrịta. Quantization na INT8 na-achịkọta ụkpụrụ anọ ebe otu FP32 nọdụrụ ala, ntinye mgbakọ na mwepụ anọ na cores tensor, mana ọ chọrọ dataset calibration iji gbakọọ ihe mkpali ọ bụla tensor ka ọnụọgụ ọnụọgụ belatara ghara ibibi izi ezi. Injin ahụ bụ ngwaike akọwapụtara n'ihi na ịmegharị akpaaka na-eme ya na kernel kacha mma maka ezigbo isi GPU na nhazi ebe nchekwa ahụ.
Ịkwalite TensorRT na Injin Inference
TensorRT bụ ọba akwụkwọ NVIDIA na-achịkọta netwọkụ akwara azụrụ n'ime injin kachasị mma nke na-agba ọsọ ọsọ na NVIDIA GPUs. Ọ dị mkpa n'ihi na otu ihe nlereanya ahụ nwere ike na-agba ọsọ 2-6x ngwa ngwa na ọnụ ala n'oge ntinye aka na-agbanweghị ihe ọ na-ebu amụma. TensorRT na Inference Engines bụ ngọngọ ụlọ ọrụ nka nke na-emetụta ịdịmma ụdị, ọnụ ahịa akụrụngwa, latency, na ntụkwasị obi n'ọ̀tụ̀tụ̀. Iji wuo nghọta miri emi, na-emeso TensorRT na Inference Engines dị ka ihe nlereanya na-arụ ọrụ, ọ bụghị otu njirimara: kọwaa nsonaazụ achọrọ, dokwuo anya echiche, ma kewaa ihe usoro ahụ nwere ike ime nke ọma na ihe ka na-achọ mkpebi ndị ọkachamara.
Na omume, otu ndị siri ike na-eji TensorRT na Inference Engines na-ebuli ụlọ, data, na nhọrọ akụrụngwa megide ntụkwasị obi na ọnụ ahịa. Ha na-edepụta njirisi ịga nke ọma nke ọma, nwalee megide data ziri ezi yana usoro ọrụ, yana na-atụgharị dabere na usoro ọdịda ahụrụ karịa karịa mmeri otu oge. Nke a bụ ebe nghọta usoro ihe atụ na-atụgharị ghọọ ike na-adịgide adịgide n'ofe ngwaahịa, amụma na arụmọrụ.
Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'otu oge ahụ, ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara. Ụzọ kachasị na-agbanwe agbanwe bụ ijikọ ọsọ nnwale na ịdọ aka ná ntị ọchịchị: ndị na-anya ụgbọ elu, ijide ihe akaebe, bipụta ndekọ mkpebi, na na-aga n'ihu na-emelite nchekwa dị ka omume nlereanya, atụmanya ndị ọrụ, na ihe iwu chọrọ.
Mmetụta atụmatụ
Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ.
Mkpebi ihe owuwu ụlọ na-akwalite arụmọrụ yana ọnụ ahịa ọrụ ruo ọtụtụ afọ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.
Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ.
Nkà mmụta nka na-enyere ndị otu egwuregwu aka ịhọrọ nchịkọta ziri ezi, ọ bụghị naanị nke kachasị ọhụrụ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.
Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta.
Nhọrọ injinia ka mma na-ebelata ihe omume ntụkwasị obi na mmepụta. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.
Mmejuputa n'ezie n'ụwa
Ịtụgharị ihe nchọta ihe YOLO ka ọ bụrụ injin TensorRT INT8 ka ọ na-agba ọsọ ozugbo na NVIDIA Jetson na robot ma ọ bụ igwefoto smart.
Iji TensorRT-LLM na-ejere ihe nlereanya Llama ma ọ bụ Mistral ozi site na iji batching ụgbọ elu iji bulie tokens-kwa-sekọnd na H100 GPUs na azụ azụ chatbot.
Na-ebuli ụdị nnabata okwu na izi ezi FP16 iji belata latency nke ederede na ọrụ ịde akụkọ ndụ.
Na-achịkọta netwọk nkwanye nkwanye ugwu na injin TensorRT fused iji na-edozi ọtụtụ nde arịrịọ kwa sekọnd na ọnụ ahịa GPU dị ala.
Usoro mmejuputa
TensorRT na Inference Engines na omume
Ịtụgharị ihe nchọta ihe YOLO ka ọ bụrụ injin TensorRT INT8 ka ọ na-agba ọsọ ozugbo na NVIDIA Jetson na robot ma ọ bụ igwefoto smart.
Ịtụgharị ihe nchọta ihe YOLO na injin TensorRT INT8 ka ọ na-agba ọsọ ozugbo na NVIDIA Jetson na robot ma ọ bụ igwefoto smart Otu egwuregwu na-enwetakarị nsonaazụ ka mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-eme ka ụzọ mmadụ na-ebuwanye ibu maka ikpe ikpe, ma soro ma uru nrụpụta na ụgwọ njehie na oge.
TensorRT na Inference Engines na omume
Ijere ihe ngosi Llama ma ọ bụ Mistral na TensorRT-LLM site na iji batching ụgbọ elu iji bulie tokens-kwa-sekọnd na H100 GPUs na azụ azụ nkata.
Ijere ihe ngosi Llama ma ọ bụ Mistral ozi na TensorRT-LLM site na iji batching in-flight iji bulie tokens-kwa-sekọnd na H100 GPUs na otu cha cha cha cha na-enweta nsonaazụ kacha mma mgbe ha kọwapụta ọnụ ụzọ dị mma n'ihu, debe ụzọ mmụba mmadụ maka ọnụ ọnụ, ma soro ma uru nrụpụta na ụgwọ njehie n'ime oge.
TensorRT na Inference Engines na omume
Na-ebuli ụdị nnabata okwu na izi ezi FP16 iji belata nkwụsịtụ ederede na ọrụ ntinye akwụkwọ ndụ.
Ịkwalite ụdị njirimara okwu na FP16 ziri ezi iji belata nkwụsị ederede na ọrụ ntinye akwụkwọ ndụ Otu dị iche iche na-enwetakarị nsonaazụ ka mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-edebe ụzọ ịrị elu nke mmadụ maka ikpe ọnụ, ma soro ma uru nrụpụta na ụgwọ njehie n'ime oge.
TensorRT na Inference Engines na omume
Na-achịkọta netwọkụ nkwanye nkwanye ugwu na injin TensorRT jikọtara ọnụ iji jikwaa ọtụtụ nde arịrịọ kwa sekọnd na ọnụ ahịa GPU dị ala.
Ịchịkọta netwọọdụ nkwanye nkwanye ugwu na injin TensorRT fused iji jikwaa ọtụtụ nde arịrịọ kwa sekọnd na ọnụ ahịa GPU dị ala Ndị otu na-enwetakarị nsonaazụ kacha mma mgbe ha kọwapụtara ọnụ ụzọ dị mma n'ihu, debe ụzọ ịrị elu mmadụ maka ikpe ọnụ, ma soro ma uru nrụpụta yana ụgwọ njehie na oge.
Ihe ize ndụ & okporo ụzọ nche
Ịkwalite otu akara ngosi nwere ike zoo adịghị ike sistemụ sara mbara.
A na-eledakarị ihe akụrụngwa na ụgwọ ọrụ anya.
Ọdịiche nchekwa na nleba anya nwere ike itolite ka sistemu na-adịwanye mgbagwoju anya.
Map mmejuputa
Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya.
Kọwaa latency, ịdịmma na ebumnuche ọnụ ahịa tupu mmejuputa ya. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.
Benchmark n'okpuru ibu dị adị na ọnọdụ data.
Benchmark n'okpuru ibu dị adị na ọnọdụ data. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.
Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ.
Nleba anya akụrụngwa maka mperi, ịkpafu na mmetụta onye ọrụ. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.
Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa.
Kwadebe ụzọ nzaghachi azụghachi azụ na ihe omume tupu ịchachaa. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.