Teknik KILAVUZ

MEB Hizmeti için Uzman Paralelliği

Uzman paralelliği, Uzmanların Karması modelinin birçok ileri beslemeli 'uzmanını' farklı GPU'lara böler, böylece her cihaz parametrelerin yalnızca bir dilimini tutar.

Genel Bakış

Uzman paralelliği, Uzmanların Karması modelinin birçok ileri beslemeli 'uzmanını' farklı GPU'lara böler, böylece her cihaz parametrelerin yalnızca bir dilimini tutar. Token başına yalnızca birkaç uzman çalıştığından, trilyon parametreli MoE modellerine ucuza hizmet vermenin anahtarıdır.

MoE Hizmeti için Uzman Paralelliği, model kalitesini, altyapı maliyetini, gecikmeyi ve güvenilirliği geniş ölçekte etkileyen teknik bir yapı taşıdır.

Derin Dalış

Uzmanlar Karması (MoE) katmanı, büyük bir ileri beslemeli ağı birçok küçük ağla (uzmanlar) ve ayrıca belirteç başına en iyi k'yi (genellikle 1 veya 2) seçen bir yönlendiriciyle değiştirir. Uzman paralelliği (EP), farklı uzmanları farklı GPU'lara yerleştirir. Çıkarım olarak yönlendirici, her bir tokenın hangi uzmanlara ihtiyaç duyduğuna karar verir, ardından hepsi bir arada iletişim adımı, tokenları seçtikleri uzmanları tutan GPU'lara gönderir, FFN'yi çalıştırır ve sonuçları geri karıştırır. Bu, bir modelin çok büyük toplam parametrelere (seyrek) sahip olmasına ve jeton başına yalnızca küçük bir kısmı (düşük FLOP'lar) etkinleştirmesine olanak tanır. Mixtral 8x7B, DeepSeek-V3 ve GPT-OSS gibi modeller bunu kullanıyor. Zor kısımlar, uzmanlar arasında yük dengeleme ve katman başına iki maliyetli, hepsine atlamadır.

Teknik Bilgi

Temel mekanizma, MoE katmanı başına iki genel kolektiften oluşur: gönderme (uzmanlarına jeton gönderme) ve birleştirme (çıktıları geri toplama). Yönlendirme verilere bağlı olduğundan, her bir uzmana isabet eden token sayısı farklılık göstererek yük dengesizliğine ve "başıboş" duruma neden olur. Hizmet sistemleri, GEMM'leri (matris çarpımlarını) tekdüze tutmak için kapasite faktörleri, uzman ara bellekler ve belirteç bırakma veya doldurma ekler ve gecikmeyi gizlemek için genellikle hepsi bir arada iletişimi uzman hesaplamayla örtüştürür.

MEB Hizmeti için Uzman Paralelliğinde Uzmanlaşma

Uzman paralelliği, Uzmanların Karması modelinin birçok ileri beslemeli 'uzmanını' farklı GPU'lara böler, böylece her cihaz parametrelerin yalnızca bir dilimini tutar. Token başına yalnızca birkaç uzman çalıştığından, trilyon parametreli MoE modellerine ucuza hizmet vermenin anahtarıdır. MoE Hizmeti için Uzman Paralelliği, model kalitesini, altyapı maliyetini, gecikmeyi ve güvenilirliği geniş ölçekte etkileyen teknik bir yapı taşıdır. Derin bir anlayış oluşturmak için, MEB Hizmeti için Uzman Paralelliğini tek bir özellik olarak değil, bir işletim modeli olarak ele alın: arzu edilen sonuçları tanımlayın, varsayımları netleştirin ve sistemin güvenilir bir şekilde yapabileceklerini hâlâ uzman görüşü gerektiren şeylerden ayırın.

Uygulamada, MoE Hizmeti için Uzman Paralelliği kullanan güçlü ekipler, mimariyi, verileri ve altyapı seçeneklerini güvenilirlik ve maliyete göre optimize eder. Açık başarı kriterlerini belgeliyorlar, gerçekçi verilere ve iş akışlarına göre test ediyorlar ve tek seferlik kıyaslama kazanımları yerine gözlemlenen başarısızlık modellerine dayalı olarak yineleniyorlar. Burası teorik anlayışın ürün, politika ve operasyonlar genelinde dayanıklı yeteneğe dönüştüğü yerdir.

Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler. Aynı zamanda, bir kıyaslamayı optimize etmek daha geniş sistem zayıflıklarını gizleyebilir. En dayanıklı yaklaşım, deneme hızını yönetişim disiplini ile birleştirmektir: pilot uygulamaları çalıştırın, kanıtları toplayın, karar günlüklerini yayınlayın ve model davranışı, kullanıcı beklentileri ve düzenleyici gereksinimler geliştikçe koruma önlemlerini sürekli olarak güncelleyin.

Stratejik Etki

Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler.

Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Teknik eğitim, ekiplerin yalnızca en yenisini değil, doğru yığını seçmesine de yardımcı olur.

Teknik eğitim, ekiplerin yalnızca en yenisini değil, doğru yığını seçmesine de yardımcı olur. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Daha iyi mühendislik seçenekleri, üretimdeki güvenilirlik olaylarını azaltır.

Daha iyi mühendislik seçenekleri, üretimdeki güvenilirlik olaylarını azaltır. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

MEB Hizmetinde Uzman Paralelliğinin Geleceği

Yönlendirme ve donanımın daha sıkı bir ortak tasarımını bekleyebilirsiniz: birleştirilmiş dağıtım-hesaplama-birleştirme çekirdekleri, birçok uzmanı gruplandıran gruplandırılmış GEMM'ler ve NVLink/InfiniBand uyumlu, hepsi bir arada. DeepSeek'in yardımcı kayıpsız dengeleme ve düğüm sınırlı yönlendirme gibi teknikler, düğümler arası trafiği azaltır. Ayrıştırılmış hizmet, 'uzman' GPU'ları ilgi GPU'larından ayrı olarak ayıracak ve daha iyi top-k ile daha büyük uzman sayıları (yüzlerce) MoE'yi jeton başına maliyeti sabit tutarken aşırı seyrekliğe doğru itecektir.

Gerçek Dünya Uygulaması

Mixtral 8x7B'yi 8 uzmanından 2-4'ünü her cihaza yerleştirerek 2-4 GPU üzerinden hizmet veriyor

DeepSeek-V3, bir token uzmanlarının yaydığı düğüm sayısını sınırlamak için düğüm sınırlı yönlendirmeyi kullanıyor ve düğümler arası tümünü kesiyor

Tek bir 8 GPU düğümünde 200B+ seyrek modeli barındırmak için vLLM veya SGLang uzman paralel modunu kullanma

Hibrit bir EP+TP dağıtımında uzman paralelliğini dikkat katmanlarındaki tensör paralelliğiyle birleştirmek

Uygulama Modelleri

MEB için Uzman Paralelliği Uygulamada Hizmet Veriyor

Mixtral 8x7B'ye 8 uzmanından 2-4'ünü her cihaza yerleştirerek 2-4 GPU üzerinden hizmet veriyor.

Mixtral 8x7B'ye, 8 uzmanından 2-4'ünü her cihaza yerleştirerek 2-4 GPU'da hizmet veren Ekipler, kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde genellikle daha iyi sonuçlar elde ederler.

MEB için Uzman Paralelliği Uygulamada Hizmet Veriyor

DeepSeek-V3, bir token uzmanlarının yaydığı düğüm sayısını sınırlamak için düğüm sınırlı yönlendirmeyi kullanıyor ve düğümler arası tümünü kesiyor.

DeepSeek-V3, bir token uzmanlarının yaydığı düğüm sayısını sınırlamak için düğüm sınırlı yönlendirmeyi kullanarak, düğümler arası tümden herkese kesinti yapar. Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

MEB için Uzman Paralelliği Uygulamada Hizmet Veriyor

Tek bir 8 GPU düğümünde 200B+ seyrek modeli barındırmak için vLLM veya SGLang uzman paralel modunu kullanma.

Tek bir 8 GPU düğümünde 200B+ seyrek modeli barındırmak için vLLM veya SGLang uzman paralel modunu kullanma Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

MEB için Uzman Paralelliği Uygulamada Hizmet Veriyor

Hibrit bir EP+TP dağıtımında uzman paralelliğini dikkat katmanlarındaki tensör paralelliğiyle birleştiriyor.

Hibrit bir EP+TP dağıtımında dikkat katmanlarında uzman paralelliğini tensör paralelliğiyle birleştirmek Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Riskler ve Korkuluklar

!

Bir kıyaslamayı optimize etmek daha geniş sistem zayıflıklarını gizleyebilir.

!

Altyapı ve bakım maliyetleri genellikle hafife alınır.

!

Sistemler karmaşıklaştıkça güvenlik ve gözlemlenebilirlik boşlukları büyüyebilir.

Uygulama Yol Haritası

1

Uygulamadan önce gecikmeyi, kaliteyi ve maliyet hedeflerini tanımlayın.

Uygulamadan önce gecikmeyi, kaliteyi ve maliyet hedeflerini tanımlayın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

2

Gerçekçi yük ve veri koşulları altında kıyaslama yapın.

Gerçekçi yük ve veri koşulları altında kıyaslama yapın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

3

Hatalar, sapmalar ve kullanıcı etkisi için cihaz izleme.

Hatalar, sapmalar ve kullanıcı etkisi için cihaz izleme. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

4

Ölçeklendirmeden önce geri alma ve olay müdahale yollarını hazırlayın.

Ölçeklendirmeden önce geri alma ve olay müdahale yollarını hazırlayın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

Keşfetmeye Devam Edin