Teknik KILAVUZ

Ayrıştırılmış Önceden Doldurma ve Kod Çözme Sunumu

Büyük dil modeli çıkarımını iki ayrı aşamaya (ön doldurma ve kod çözme) bölen ve bunları farklı GPU havuzlarında çalıştıran bir hizmet mimarisi.

Genel Bakış

Büyük dil modeli çıkarımını iki ayrı aşamaya (ön doldurma ve kod çözme) bölen ve bunları farklı GPU havuzlarında çalıştıran bir hizmet mimarisi. Bu önemlidir çünkü bu iki aşamanın donanım istekleri birbirine zıttır ve bunları aynı makinelere zorlamak kapasite kaybına neden olur ve gecikmeye zarar verir.

Ayrıştırılmış Önceden Doldurma ve Kod Çözme Hizmeti, model kalitesini, altyapı maliyetini, gecikmeyi ve güvenilirliği geniş ölçekte etkileyen teknik bir yapı taşıdır.

Derin Dalış

Bir LLM cevap verdiğinde iki aşamada çalışır. Önceden doldurma, istemin tamamını bir kerede okur ve anahtar-değer (KV) önbelleğini oluşturur; bu, GPU'nun matematik birimlerini doyuran büyük, paralel, hesaplamaya bağlı bir patlamadır. Decode daha sonra teker teker jetonlar üretir ve her adım KV önbelleğinin tamamını okur; bellek bant genişliğine bağlı, hafif hesaplamalı bir damlamadır. Birlikte çalıştırın, uzun bir ön doldurma herkesin kod çözme işlemini durdurur (satır başı engelleme) ve ikisinin gruplanması parazit yaratır. Ayrıştırma, bir GPU havuzuna önceden doldurma ve diğerinde kod çözme işlemi uygulayarak KV önbelleğini NVLink veya InfiniBand gibi hızlı ara bağlantılar üzerinden aralarında aktarır. Her havuz bağımsız olarak ayarlanıp ölçeklendirilerek iyi girdi iyileştirilir, kuyruk gecikmesi yumuşatılır ve operatörlerin sıkı ilk jetona ulaşma süresi ve çıktı başına jeton süresi hedeflerine aynı anda ulaşmalarına olanak sağlanır.

Teknik Bilgi

İki aşama darboğazları bakımından farklılık gösterir. Önceden doldurma, tüm bilgi istemi belirteçlerini paralel olarak işler, böylece FLOP'ları bilgi istemi uzunluğuna göre ölçeklenir ve tensör çekirdeklerini maksimuma çıkarır. Kod çözme otoregresiftir: her yeni belirtecin, HBM'den tam KV önbelleğini yeniden okuyan bir ileri geçişe ihtiyacı vardır, bu nedenle aktarım, hesaplamayla değil bellek bant genişliğiyle kontrol edilir. Ayrıştırma, her havuz için boyutlandırma, toplulaştırma ve hatta farklı paralellik seçerek ve ardından KV önbelleğini ön doldurma çalışanlarından kod çözme çalışanlarına göndererek bundan yararlanır.

Ayrıştırılmış Ön Doldurma ve Kod Çözme Sunumunda Uzmanlaşma

Büyük dil modeli çıkarımını iki ayrı aşamaya (ön doldurma ve kod çözme) bölen ve bunları farklı GPU havuzlarında çalıştıran bir hizmet mimarisi. Bu önemlidir çünkü bu iki aşamanın donanım istekleri birbirine zıttır ve bunları aynı makinelere zorlamak kapasite kaybına neden olur ve gecikmeye zarar verir. Ayrıştırılmış Önceden Doldurma ve Kod Çözme Hizmeti, model kalitesini, altyapı maliyetini, gecikmeyi ve güvenilirliği geniş ölçekte etkileyen teknik bir yapı taşıdır. Derin bir anlayış oluşturmak için, Ayrıştırılmış Ön Doldurma ve Kod Çözme Hizmetini tek bir özellik olarak değil, bir işletim modeli olarak ele alın: istenen sonuçları tanımlayın, varsayımları netleştirin ve sistemin güvenilir bir şekilde yapabileceklerini hâlâ uzman görüşü gerektiren şeylerden ayırın.

Uygulamada, Ayrıştırılmış Ön Doldurma ve Kod Çözme Hizmetini kullanan güçlü ekipler, mimariyi, verileri ve altyapı seçeneklerini güvenilirlik ve maliyete göre optimize eder. Açık başarı kriterlerini belgeliyorlar, gerçekçi verilere ve iş akışlarına göre test ediyorlar ve tek seferlik kıyaslama kazanımları yerine gözlemlenen başarısızlık modellerine dayalı olarak yineleniyorlar. Burası teorik anlayışın ürün, politika ve operasyonlar genelinde dayanıklı yeteneğe dönüştüğü yerdir.

Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler. Aynı zamanda, bir kıyaslamayı optimize etmek daha geniş sistem zayıflıklarını gizleyebilir. En dayanıklı yaklaşım, deneme hızını yönetişim disiplini ile birleştirmektir: pilot uygulamaları çalıştırın, kanıtları toplayın, karar günlüklerini yayınlayın ve model davranışı, kullanıcı beklentileri ve düzenleyici gereksinimler geliştikçe koruma önlemlerini sürekli olarak güncelleyin.

Stratejik Etki

Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler.

Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Teknik eğitim, ekiplerin yalnızca en yenisini değil, doğru yığını seçmesine de yardımcı olur.

Teknik eğitim, ekiplerin yalnızca en yenisini değil, doğru yığını seçmesine de yardımcı olur. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Daha iyi mühendislik seçenekleri, üretimdeki güvenilirlik olaylarını azaltır.

Daha iyi mühendislik seçenekleri, üretimdeki güvenilirlik olaylarını azaltır. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Ayrıştırılmış Ön Doldurma ve Kod Çözme Hizmetinin Geleceği

Üretim yığınlarında ayrıştırmanın varsayılan haline gelmesini bekleyin. DistServe, Splitwise ve Mooncake gibi sistemler bunu popüler hale getirdi ve vLLM ve NVIDIA Dynamo artık ayrıştırılmış modlar sunuyor. Araştırmalar, KV-önbellek aktarım optimizasyonlarını, önbellek havuzu oluşturmayı ve istekler arasında yeniden kullanmayı, değişen trafik altında ön doldurma/kod çözme oranlarının dinamik olarak yeniden dengelenmesini ve ön ek önbelleğe alma ve parçalı ön doldurma ile daha sıkı entegrasyonu teşvik ediyor. Bağlam pencereleri milyonlarca jetona dönüştükçe, uygun maliyetli, düşük gecikmeli hizmet için bu aşamaları ayırmak giderek daha önemli hale geliyor.

Gerçek Dünya Uygulaması

Bir sohbet asistanı, uzun belge istemlerini işlem ağırlıklı bir ön doldurma kümesine yönlendirir, ardından yazma gecikmesini sorunsuz tutmak için bellek açısından optimize edilmiş bir kod çözme kümesinden yanıtları aktarır.

NVIDIA Dynamo ve vLLM, operatörlerin ayrı ön doldurma ve kod çözme çalışan gruplarını konuşlandırmasına olanak tanır, böylece uzun istemler dizisi devam eden nesilleri dondurmaz.

Mooncake (Moonshot AI'den Kimi tarafından kullanılır) ön doldurma ve kod çözmeyi ayrıştırır ve gereksiz istem yeniden hesaplamasını uygun ölçekte kesmek için dağıtılmış bir KV önbellek havuzu ekler.

Kod tamamlama hizmeti, kısa istemler için küçük bir ön doldurma havuzu ve büyük bir kod çözme havuzu ayırır; çünkü maliyetin çoğu, çok sayıda çıktı jetonunun akışından kaynaklanır.

Uygulama Modelleri

Uygulamada Ayrıştırılmış Ön Doldurma ve Kod Çözme Hizmeti

Bir sohbet asistanı, uzun belge istemlerini işlem ağırlıklı bir ön doldurma kümesine yönlendirir, ardından yazma gecikmesini sorunsuz tutmak için bellek açısından optimize edilmiş bir kod çözme kümesinden yanıtları aktarır.

Bir sohbet asistanı, uzun belge istemlerini bilgi işlem ağırlıklı bir ön doldurma kümesine yönlendirir, ardından yazma gecikmesini sorunsuz tutmak için bellek açısından optimize edilmiş bir kod çözme kümesinden yanıtları aktarır Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Uygulamada Ayrıştırılmış Ön Doldurma ve Kod Çözme Hizmeti

NVIDIA Dynamo ve vLLM, operatörlerin ayrı ön doldurma ve kod çözme çalışan gruplarını konuşlandırmasına olanak tanır, böylece uzun istemler dizisi devam eden nesilleri dondurmaz.

NVIDIA Dynamo ve vLLM, operatörlerin ayrı ön doldurma ve kod çözme çalışan gruplarını konuşlandırmasına olanak tanır, böylece uzun istemler dizisi devam eden nesilleri dondurmaz Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Uygulamada Ayrıştırılmış Ön Doldurma ve Kod Çözme Hizmeti

Mooncake (Moonshot AI'den Kimi tarafından kullanılır) ön doldurma ve kod çözmeyi ayrıştırır ve gereksiz istem yeniden hesaplamasını uygun ölçekte kesmek için dağıtılmış bir KV önbellek havuzu ekler.

Mooncake (Moonshot AI'dan Kimi tarafından kullanılır), ön doldurma ve kod çözmeyi ayrıştırır ve gereksiz hızlı yeniden hesaplamayı uygun ölçekte azaltmak için dağıtılmış bir KV önbellek havuzu ekler. Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Uygulamada Ayrıştırılmış Ön Doldurma ve Kod Çözme Hizmeti

Kod tamamlama hizmeti, kısa istemler için küçük bir ön doldurma havuzu ve büyük bir kod çözme havuzu ayırır; çünkü maliyetin çoğu, çok sayıda çıktı jetonunun akışından kaynaklanır.

Kod tamamlama hizmeti, kısa istemler için küçük bir ön doldurma havuzu ve büyük bir kod çözme havuzu ayırır; çünkü maliyetlerin çoğu, çok sayıda çıktı jetonunun akışından kaynaklanır. Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Riskler ve Korkuluklar

!

Bir kıyaslamayı optimize etmek daha geniş sistem zayıflıklarını gizleyebilir.

!

Altyapı ve bakım maliyetleri genellikle hafife alınır.

!

Sistemler karmaşıklaştıkça güvenlik ve gözlemlenebilirlik boşlukları büyüyebilir.

Uygulama Yol Haritası

1

Uygulamadan önce gecikmeyi, kaliteyi ve maliyet hedeflerini tanımlayın.

Uygulamadan önce gecikmeyi, kaliteyi ve maliyet hedeflerini tanımlayın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

2

Gerçekçi yük ve veri koşulları altında kıyaslama yapın.

Gerçekçi yük ve veri koşulları altında kıyaslama yapın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

3

Hatalar, sapmalar ve kullanıcı etkisi için cihaz izleme.

Hatalar, sapmalar ve kullanıcı etkisi için cihaz izleme. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

4

Ölçeklendirmeden önce geri alma ve olay müdahale yollarını hazırlayın.

Ölçeklendirmeden önce geri alma ve olay müdahale yollarını hazırlayın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

Keşfetmeye Devam Edin