Teknik KILAVUZ

Uzmanların Karışımı

Uzmanların Karması (MoE), bir ağı birçok özel alt ağa bölen ve giriş başına yalnızca birkaçını etkinleştiren bir model tasarımıdır.

Genel Bakış

Uzmanların Karması (MoE), bir ağı birçok özel alt ağa bölen ve giriş başına yalnızca birkaçını etkinleştiren bir model tasarımıdır. Her tahmini hızlı ve ucuz tutarken modellerin muazzam miktarda bilgi taşımasına olanak tanır.

Uzman Karması, model kalitesini, altyapı maliyetini, gecikmeyi ve güvenilirliği geniş ölçekte etkileyen teknik bir yapı taşıdır.

Derin Dalış

Standart bir transformatör her girişi aynı yoğun katmanlardan geçirir; dolayısıyla modeli daha akıllı hale getirmek genellikle her hesaplamayı daha pahalı hale getirmek anlamına gelir. Uzmanların Karışımı bu bağlantıyı koparır. Büyük ileri besleme katmanını birçok küçük 'uzman' ağ ve her bir tokenı hangi uzmanların ele alacağına karar veren küçük bir 'yönlendirici' ile değiştirir. Tipik olarak yalnızca en iyi 1 veya 2 uzman ateşlenir, dolayısıyla bir model yüz milyarlarca toplam parametreye sahip olabilir ancak jeton başına yalnızca küçük bir kısmı etkinleştirebilir. Mixtral 8x7B gibi modellerin ve GPT-4'ün arkasında olduğu söylenen mimarinin, orantısal olarak yüksek çıkarım maliyeti olmadan yüksek kaliteye ulaşmasının nedeni budur. Takas karmaşıktır: Tüm uzmanların hâlâ belleğe sığması gerekir ve yönlendirici bazı uzmanları yanlış yönlendirebilir veya aşırı yükleyebilir, bu nedenle eğitim dikkatli bir dengeleme gerektirir.

Teknik Bilgi

MoE'nin kalbi, her uzmanı gelen bir token için puanlayan ve tokenı en yüksek puana sahip olanlara (genellikle k=1 veya 2) yönlendiren küçük, öğrenilmiş bir katman olan geçiş ağıdır. Yönlendiricinin her şeyi birkaç favori uzmana göndermesini engellemek için eğitim, dengesiz kullanımı cezalandıran yardımcı bir 'yük dengeleme kaybı' ekler. Token başına yalnızca k uzman çalıştığından, daha fazla uzman ekleseniz bile hesaplama (FLOP'lar) yaklaşık olarak sabit kalır, dolayısıyla toplam parametreler ve token başına maliyet bağımsız olarak ölçeklenir.

Uzmanlardan oluşan Uzmanlık Karışımı

Uzmanların Karması (MoE), bir ağı birçok özel alt ağa bölen ve giriş başına yalnızca birkaçını etkinleştiren bir model tasarımıdır. Her tahmini hızlı ve ucuz tutarken modellerin muazzam miktarda bilgi taşımasına olanak tanır. Uzman Karması, model kalitesini, altyapı maliyetini, gecikmeyi ve güvenilirliği geniş ölçekte etkileyen teknik bir yapı taşıdır. Derin bir anlayış oluşturmak için Uzman Karması'nı tek bir özellik olarak değil, bir işletim modeli olarak ele alın: arzu edilen sonuçları tanımlayın, varsayımları netleştirin ve sistemin güvenilir bir şekilde yapabileceklerini hâlâ uzman görüşü gerektiren şeylerden ayırın.

Uygulamada, Uzman Karması'nı kullanan güçlü ekipler, mimariyi, verileri ve altyapı seçimlerini güvenilirlik ve maliyete göre optimize eder. Açık başarı kriterlerini belgeliyorlar, gerçekçi verilere ve iş akışlarına göre test ediyorlar ve tek seferlik kıyaslama kazanımları yerine gözlemlenen başarısızlık modellerine dayalı olarak yineleniyorlar. Burası teorik anlayışın ürün, politika ve operasyonlar genelinde dayanıklı yeteneğe dönüştüğü yerdir.

Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler. Aynı zamanda, bir kıyaslamayı optimize etmek daha geniş sistem zayıflıklarını gizleyebilir. En dayanıklı yaklaşım, deneme hızını yönetişim disiplini ile birleştirmektir: pilot uygulamaları çalıştırın, kanıtları toplayın, karar günlüklerini yayınlayın ve model davranışı, kullanıcı beklentileri ve düzenleyici gereksinimler geliştikçe koruma önlemlerini sürekli olarak güncelleyin.

Stratejik Etki

Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler.

Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Teknik eğitim, ekiplerin yalnızca en yenisini değil, doğru yığını seçmesine de yardımcı olur.

Teknik eğitim, ekiplerin yalnızca en yenisini değil, doğru yığını seçmesine de yardımcı olur. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Daha iyi mühendislik seçenekleri, üretimdeki güvenilirlik olaylarını azaltır.

Daha iyi mühendislik seçenekleri, üretimdeki güvenilirlik olaylarını azaltır. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Uzman Karmasının Geleceği

MoE, kapasiteyi maliyetten ayırdığı için sınır ölçekli modeller için varsayılan bir araç haline geliyor. Daha ayrıntılı uzmanların, daha fazla bağlamı göz önünde bulunduran daha akıllı yönlendirmenin ve sınırlı donanım üzerinde devasa seyrek modellerin sunulmasına yönelik daha iyi tekniklerin olmasını bekleyin. Araştırma aynı zamanda hafıza problemini de ele alıyor, çünkü çok az sayıda çalışma olsa bile tüm uzmanların uzman boşaltma ve nicemleme yoluyla yüklenmesi gerekiyor. Mixtral ve DeepSeek-MoE gibi açık modeller olgunlaştıkça, seyrek mimariler muhtemelen daha küçük GPU bütçeleriyle daha verimli asistanlara güç verecek.

Gerçek Dünya Uygulaması

Mixtral 8x7B, 8 uzman kullanır ve jeton başına 2 kişiyi etkinleştirir; daha hızlı, daha ucuz çıkarım için kabaca 47B toplam parametre sağlar, ancak jeton başına yalnızca ~13B aktiftir.

DeepSeek ve Qwen, daha düşük token başına bilgi işlemle çalışırken karşılaştırmalı değerlendirmelerdeki yoğun modellerle eşleşen büyük MoE dil modelleri sunuyor.

Cloud LLM sağlayıcıları MoE'yi kullanıyor, böylece her talep yalnızca birkaç uzmana ışık tuttuğundan, tek bir büyük model birçok kullanıcıya uygun maliyetle hizmet verebilir.

Google'in önceki Switch Transformer'ı, eğitim hesaplamasını yönetilebilir tutmak için ilk 1 yönlendirmeyi kullanarak bir trilyonun üzerinde parametreye ölçeklendirildi.

Uygulama Modelleri

Uygulamada Uzmanların Karması

Mixtral 8x7B, 8 uzman kullanır ve jeton başına 2 kişiyi etkinleştirir; daha hızlı, daha ucuz çıkarım için kabaca 47B toplam parametre sağlar, ancak jeton başına yalnızca ~13B aktiftir.

Mixtral 8x7B, 8 uzman kullanır ve token başına 2 uzmanı etkinleştirerek yaklaşık 47 milyar toplam parametre sağlar ancak daha hızlı, daha ucuz çıkarım için token başına yalnızca ~13 milyar aktiftir. Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Uygulamada Uzmanların Karması

DeepSeek ve Qwen, daha düşük token başına bilgi işlemle çalışırken karşılaştırmalı değerlendirmelerdeki yoğun modellerle eşleşen büyük MoE dil modelleri sunuyor.

DeepSeek ve Qwen, kıyaslamalardaki yoğun modellerle eşleşen ve daha düşük token başına bilgi işlemle çalışan büyük MoE dil modelleri sunuyor. Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Uygulamada Uzmanların Karması

Cloud LLM sağlayıcıları MoE'yi kullanıyor, böylece her talep yalnızca birkaç uzmana ışık tuttuğundan, tek bir büyük model birçok kullanıcıya uygun maliyetle hizmet verebilir.

Bulut LLM sağlayıcıları MoE'yi kullanır, böylece tek bir devasa model birçok kullanıcıya uygun maliyetle hizmet verebilir, çünkü her istek yalnızca birkaç uzmanı aydınlatır. Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Uygulamada Uzmanların Karması

Google'in önceki Switch Transformer'ı, eğitim hesaplamasını yönetilebilir tutmak için ilk 1 yönlendirmeyi kullanarak bir trilyonun üzerinde parametreye ölçeklendirildi.

Google'in önceki Switch Transformer'ı, eğitim bilişiminin yönetilebilir kalmasını sağlamak için ilk 1 yönlendirmeyi kullanarak bir trilyondan fazla parametreye ölçeklendi. Ekipler genellikle kalite eşiklerini önceden tanımladıklarında, uç durumlar için insani bir yükseltme yolu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini izlediklerinde daha iyi sonuçlar elde ederler.

Riskler ve Korkuluklar

!

Bir kıyaslamayı optimize etmek daha geniş sistem zayıflıklarını gizleyebilir.

!

Altyapı ve bakım maliyetleri genellikle hafife alınır.

!

Sistemler karmaşıklaştıkça güvenlik ve gözlemlenebilirlik boşlukları büyüyebilir.

Uygulama Yol Haritası

1

Uygulamadan önce gecikmeyi, kaliteyi ve maliyet hedeflerini tanımlayın.

Uygulamadan önce gecikmeyi, kaliteyi ve maliyet hedeflerini tanımlayın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

2

Gerçekçi yük ve veri koşulları altında kıyaslama yapın.

Gerçekçi yük ve veri koşulları altında kıyaslama yapın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

3

Hatalar, sapmalar ve kullanıcı etkisi için cihaz izleme.

Hatalar, sapmalar ve kullanıcı etkisi için cihaz izleme. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

4

Ölçeklendirmeden önce geri alma ve olay müdahale yollarını hazırlayın.

Ölçeklendirmeden önce geri alma ve olay müdahale yollarını hazırlayın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

Keşfetmeye Devam Edin