Teknik KILAVUZ

SmoothQuant ve Aktivasyon Nicelemesi

SmoothQuant, büyük dil modellerini yeniden eğitim gerektirmeden hem ağırlıklar hem de aktivasyonlar için 8 bitlik tam sayılara kadar sıkıştırmayı mümkün kılan bir tekniktir.

Genel Bakış

SmoothQuant, büyük dil modellerini yeniden eğitim gerektirmeden hem ağırlıklar hem de aktivasyonlar için 8 bitlik tam sayılara kadar sıkıştırmayı mümkün kılan bir tekniktir. Bu önemlidir çünkü büyük modellerdeki aktivasyonlar, normalde düşük hassasiyetli matematiği bozan aşırı aykırı değerler içerir ve SmoothQuant bunları ehlileştirir.

SmoothQuant ve Aktivasyon Niceleme, model kalitesini, altyapı maliyetini, gecikmeyi ve güvenilirliği geniş ölçekte etkileyen teknik bir yapı taşıdır.

Derin Dalış

Bir modeli 16 bitlik değişkenlerden 8 bitlik tam sayılara küçülttüğünüzde, ağırlıklar kolayca sıkıştırılır ancak aktivasyonlar sorunludur: bazı kanallar diğerlerinden 10 ila 100 kat daha büyük değerler taşır ve bunları kaba bir tamsayı ızgarasına zorlamak doğruluğu yok eder. SmoothQuant, Xiao ve diğerleri tarafından tanıtıldı. 2022'de ağırlıkların düzgün olduğunu ve nicelleştirilmesinin kolay olduğunu, aktivasyonların ise dikenli olduğunu gözlemledi. Böylece zorluğu matematiksel olarak aktarır: Aktivasyon kanallarını kanal başına bir ölçeğe böler ve karşılık gelen ağırlıkları aynı ölçekle çarpar. İki işlem iptal edilerek model çıktısı değişmeden kalır, ancak artık her iki tensör de dost aralıklarda bulunur. Sonuç, sıfıra yakın doğruluk kaybı ve kabaca 2 kat hızlanma ve bellek tasarrufu ile W8A8 (8 bit ağırlıklar ve aktivasyonlar) çıkarımıdır.

Teknik Bilgi

Temel püf noktası, s = max(|X|)^alpha / max(|W|)^(1-alpha) olarak hesaplanan kanal başına yumuşatma faktörüdür. Aktivasyonlar 1/s ile, ağırlıklar ise s ile ölçeklendirilir, böylece XW matris ürünü korunur. Ölçeklendirme çevrimdışı olarak önceki katmanın ağırlıklarına veya birleştirilmiş bir işleme emildiği için sıfır çalışma süresi maliyeti ekler. Alfa hiperparametresi (genellikle 0,5), aktivasyonlardan ağırlıklara ne kadar aykırı değer yükünün kaydığını kontrol eder.

SmoothQuant ve Aktivasyon Nicelemesinde Uzmanlaşma

SmoothQuant, büyük dil modellerini yeniden eğitim gerektirmeden hem ağırlıklar hem de aktivasyonlar için 8 bitlik tam sayılara kadar sıkıştırmayı mümkün kılan bir tekniktir. Bu önemlidir çünkü büyük modellerdeki aktivasyonlar, normalde düşük hassasiyetli matematiği bozan aşırı aykırı değerler içerir ve SmoothQuant bunları ehlileştirir. SmoothQuant ve Aktivasyon Niceleme, model kalitesini, altyapı maliyetini, gecikmeyi ve güvenilirliği geniş ölçekte etkileyen teknik bir yapı taşıdır. Derin bir anlayış oluşturmak için SmoothQuant ve Aktivasyon Niceleme'yi tek bir özellik olarak değil, bir işletim modeli olarak ele alın: arzu edilen sonuçları tanımlayın, varsayımları netleştirin ve sistemin güvenilir bir şekilde yapabileceklerini hâlâ uzman görüşü gerektiren şeylerden ayırın.

Uygulamada, SmoothQuant ve Aktivasyon Niceleme kullanan güçlü ekipler, mimariyi, verileri ve altyapı seçeneklerini güvenilirlik ve maliyete göre optimize eder. Açık başarı kriterlerini belgeliyorlar, gerçekçi verilere ve iş akışlarına göre test ediyorlar ve tek seferlik kıyaslama kazanımları yerine gözlemlenen başarısızlık modellerine dayalı olarak yineleniyorlar. Burası teorik anlayışın ürün, politika ve operasyonlar genelinde dayanıklı yeteneğe dönüştüğü yerdir.

Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler. Aynı zamanda, bir kıyaslamayı optimize etmek daha geniş sistem zayıflıklarını gizleyebilir. En dayanıklı yaklaşım, deneme hızını yönetişim disiplini ile birleştirmektir: pilot uygulamaları çalıştırın, kanıtları toplayın, karar günlüklerini yayınlayın ve model davranışı, kullanıcı beklentileri ve düzenleyici gereksinimler geliştikçe koruma önlemlerini sürekli olarak güncelleyin.

Stratejik Etki

Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler.

Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Teknik eğitim, ekiplerin yalnızca en yenisini değil, doğru yığını seçmesine de yardımcı olur.

Teknik eğitim, ekiplerin yalnızca en yenisini değil, doğru yığını seçmesine de yardımcı olur. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Daha iyi mühendislik seçenekleri, üretimdeki güvenilirlik olaylarını azaltır.

Daha iyi mühendislik seçenekleri, üretimdeki güvenilirlik olaylarını azaltır. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

SmoothQuant'ın Geleceği ve Aktivasyon Nicelemesi

SmoothQuant, etkinleştirme aykırı değerlerinin kaçınılmaz değil, taşınabilir olduğunu belirledi ve bu fikir artık üretim INT8 ve FP8 hizmetinin temelini oluşturuyor. Yumuşatmanın, grup başına niceleme, öğrenilmiş ölçeklendirme ve 4 bitlik aktivasyon araştırması (örneğin aykırı değere duyarlı yöntemler) gibi daha ince taneli şemalarla birleştirilmesini bekleyin. FP8 donanımı (Hopper, Blackwell) olgunlaştıkça, yumuşatma tarzı dengeleme, derleyici ve çıkarım motoru ardışık düzenlerinde yer almaya devam edecek ve böylece niceleme neredeyse ücretsiz kalacaktır.

Gerçek Dünya Uygulaması

Hem bellek hem de matris çoğaltma maliyetini yarıya indirerek daha az GPU'da W8A8'de 70B parametreli bir LLM'ye hizmet etme

8 bit tam sayı matematiğini yerel olarak hızlandıran NVIDIA Hopper/Blackwell tensör çekirdeklerinde INT8 çıkarımını etkinleştirme

Verimin iki katına çıkarılmasının jeton başına faturayı doğrudan azalttığı, maliyeti kısıtlı bulut uç noktalarında sohbet modellerinin devreye alınması

8 bit çekirdeklerin daha hızlı ve daha serin çalıştığı cihaz içi konuşma veya çeviri için transformatör kodlayıcıların sıkıştırılması

Uygulama Modelleri

Uygulamada SmoothQuant ve Aktivasyon Nicelemesi

Hem bellek hem de matris çoğaltma maliyetini yarıya indirerek daha az GPU'da W8A8'de 70B parametreli bir LLM'ye hizmet etme.

Hem belleği hem de matris çarpım maliyetini yarıya indirerek daha az GPU'da 70B parametreli bir LLM'ye W8A8'de hizmet verme Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Uygulamada SmoothQuant ve Aktivasyon Nicelemesi

8 bit tam sayı matematiğini yerel olarak hızlandıran NVIDIA Hopper/Blackwell tensör çekirdeklerinde INT8 çıkarımını etkinleştirme.

8 bitlik tamsayı matematiğini yerel olarak hızlandıran NVIDIA Hopper/Blackwell tensör çekirdeklerinde INT8 çıkarımını etkinleştirme Ekipler genellikle kalite eşiklerini önceden tanımladıklarında, uç durumlar için insani bir yükseltme yolu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini izlediklerinde daha iyi sonuçlar elde ederler.

Uygulamada SmoothQuant ve Aktivasyon Nicelemesi

Verimin iki katına çıkarılmasının jeton başına faturayı doğrudan azalttığı, maliyet açısından kısıtlı bulut uç noktalarında sohbet modellerinin dağıtılması.

Verimin iki katına çıkarılmasının jeton başına faturayı doğrudan azalttığı maliyet kısıtlı bulut uç noktalarında sohbet modellerinin dağıtılması Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Uygulamada SmoothQuant ve Aktivasyon Nicelemesi

8 bitlik çekirdeklerin daha hızlı ve daha serin çalıştığı cihaz içi konuşma veya çeviri için sıkıştırılmış transformatör kodlayıcılar.

8 bitlik çekirdeklerin daha hızlı ve daha serin çalıştığı cihaz içi konuşma veya çeviri için transformatör kodlayıcıların sıkıştırılması Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Riskler ve Korkuluklar

!

Bir kıyaslamayı optimize etmek daha geniş sistem zayıflıklarını gizleyebilir.

!

Altyapı ve bakım maliyetleri genellikle hafife alınır.

!

Sistemler karmaşıklaştıkça güvenlik ve gözlemlenebilirlik boşlukları büyüyebilir.

Uygulama Yol Haritası

1

Uygulamadan önce gecikmeyi, kaliteyi ve maliyet hedeflerini tanımlayın.

Uygulamadan önce gecikmeyi, kaliteyi ve maliyet hedeflerini tanımlayın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

2

Gerçekçi yük ve veri koşulları altında kıyaslama yapın.

Gerçekçi yük ve veri koşulları altında kıyaslama yapın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

3

Hatalar, sapmalar ve kullanıcı etkisi için cihaz izleme.

Hatalar, sapmalar ve kullanıcı etkisi için cihaz izleme. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

4

Ölçeklendirmeden önce geri alma ve olay müdahale yollarını hazırlayın.

Ölçeklendirmeden önce geri alma ve olay müdahale yollarını hazırlayın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

Keşfetmeye Devam Edin