Genel Bakış
Sınıf dengesizliği, bir sonucun diğerinden çok daha fazla olması durumudur (örneğin %99,9 meşru işlemlere karşılık %0,1 dolandırıcılık) ve bu da modellerin nadir fakat önemli sınıfı göz ardı etmesini sağlar. Yeniden örnekleme, eğitim verilerini yeniden dengeler, böylece model aslında azınlığı tespit etmeyi öğrenir.
Sınıf Dengesizliği ve Yeniden Örnekleme, model kalitesini, altyapı maliyetini, gecikmeyi ve güvenilirliği geniş ölçekte etkileyen teknik bir yapı taşıdır.
Derin Dalış
Sınıflar çarpık olduğunda, bir model her zaman çoğunluğu tahmin ederek ve tek bir sahtekarlığı bile yakalamadan %99,9 doğruluğa ulaşabilir ki bu da işe yaramaz. Yeniden örnekleme, eğitim dağılımını iki geniş yolla düzeltir. Aşırı örnekleme, azınlık örneklerini kopyalar veya sentezler - klasik SMOTE (Sentetik Azınlık Aşırı Örnekleme Tekniği), bir azınlık örneği ile en yakın azınlık komşuları arasında bunları kopyalamak yerine enterpolasyon yaparak yeni noktalar oluşturur. Bunun yerine yetersiz örnekleme, verileri çöpe atma pahasına işleri eşitlemek için çoğunluk örneklerini (rastgele veya Tomek bağlantıları veya NearMiss gibi yöntemlerle akıllı bir şekilde) atar. Verilere dokunmaktan kaçınan alternatifler arasında sınıf ağırlıklandırması (kayıp fonksiyonunda azınlık hatalarının daha fazla cezalandırılması) ve eğitim sonrasında karar eşiğinin ayarlanması yer alır.
Teknik Bilgi
Kritik bir kural: yalnızca eğitim kümesini yeniden örnekleyin, hiçbir zaman doğrulama veya test kümesini yeniden örnekleyin ve her zaman çapraz doğrulama katlamalarının içinde yeniden örnekleyin. Bölmeden önce aşırı örnekleme, test setine neredeyse kopya noktaların sızmasına neden olur ve puanları şişirir. Doğruluk burada anlamsız olduğundan değerlendirme, pozitif sınıf nadir olduğunda dürüst kalan ölçümler olan hassasiyete, geri çağırmaya, F1'e, Hassasiyet-Geri Çağırma AUC'sine veya Matthews Korelasyon Katsayısı'na dayanmalıdır.
Sınıf Dengesizliğinde Uzmanlaşma ve Yeniden Örnekleme
Sınıf dengesizliği, bir sonucun diğerinden çok daha fazla olması durumudur (örneğin %99,9 meşru işlemlere karşılık %0,1 dolandırıcılık) ve bu da modellerin nadir fakat önemli sınıfı göz ardı etmesini sağlar. Yeniden örnekleme, eğitim verilerini yeniden dengeler, böylece model aslında azınlığı tespit etmeyi öğrenir. Sınıf Dengesizliği ve Yeniden Örnekleme, model kalitesini, altyapı maliyetini, gecikmeyi ve güvenilirliği geniş ölçekte etkileyen teknik bir yapı taşıdır. Derin bir anlayış oluşturmak için, Sınıf Dengesizliği ve Yeniden Örneklemeyi tek bir özellik olarak değil, bir işletim modeli olarak ele alın: arzu edilen sonuçları tanımlayın, varsayımları netleştirin ve sistemin güvenilir bir şekilde yapabileceklerini hâlâ uzman görüşü gerektiren şeylerden ayırın.
Uygulamada, Sınıf Dengesizliği ve Yeniden Örneklemeyi kullanan güçlü ekipler, mimariyi, verileri ve altyapı seçimlerini güvenilirlik ve maliyete göre optimize eder. Açık başarı kriterlerini belgeliyorlar, gerçekçi verilere ve iş akışlarına göre test ediyorlar ve tek seferlik kıyaslama kazanımları yerine gözlemlenen başarısızlık modellerine dayalı olarak yineleniyorlar. Burası teorik anlayışın ürün, politika ve operasyonlar genelinde dayanıklı yeteneğe dönüştüğü yerdir.
Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler. Aynı zamanda, bir kıyaslamayı optimize etmek daha geniş sistem zayıflıklarını gizleyebilir. En dayanıklı yaklaşım, deneme hızını yönetişim disiplini ile birleştirmektir: pilot uygulamaları çalıştırın, kanıtları toplayın, karar günlüklerini yayınlayın ve model davranışı, kullanıcı beklentileri ve düzenleyici gereksinimler geliştikçe koruma önlemlerini sürekli olarak güncelleyin.
Stratejik Etki
Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler.
Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.
Teknik eğitim, ekiplerin yalnızca en yenisini değil, doğru yığını seçmesine de yardımcı olur.
Teknik eğitim, ekiplerin yalnızca en yenisini değil, doğru yığını seçmesine de yardımcı olur. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.
Daha iyi mühendislik seçenekleri, üretimdeki güvenilirlik olaylarını azaltır.
Daha iyi mühendislik seçenekleri, üretimdeki güvenilirlik olaylarını azaltır. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.
Gerçek Dünya Uygulaması
Gerçek sahtekarlığın işlemlerin %1'inin çok altında olduğu bir kredi kartı sahtekarlığı dedektörünü eğitmek ve nadir görülen dolandırıcılık vakalarını güçlendirmek için SMOTE'u kullanmak
Hastaların yalnızca yüzde birkaçında görülen nadir bir hastalık için tıbbi bir model oluşturmak, sınıf ağırlıkları uygulayarak gözden kaçırılan vakaların ağır şekilde cezalandırılmasını sağlamak
Neredeyse tüm ürünlerin muayeneden geçtiği bir üretim hattındaki kusurlu ürünleri tespit etmek, eğitimi dengelemek için 'iyi' ürünlerden daha az örnek almak
Doğruluk yerine Precision-Recall AUC ile değerlendirilen, normal trafiğin hakim olduğu siber güvenlik günlüklerindeki nadir ağ izinsiz girişlerini işaretleme
Uygulama Modelleri
Sınıf Dengesizliği ve Uygulamada Yeniden Örnekleme
Gerçek sahtekarlığın işlemlerin %1'in çok altında olduğu bir kredi kartı sahtekarlığı dedektörünü eğitmek ve nadir görülen dolandırıcılık vakalarını güçlendirmek için SMOTE'u kullanmak.
Gerçek sahtekarlığın işlemlerin %1'in çok altında olduğu bir kredi kartı dolandırıcılık dedektörünü eğitmek, nadir dolandırıcılık olaylarını güçlendirmek için SMOTE kullanmak Ekipler genellikle kalite eşiklerini önceden tanımladıklarında, uç durumlar için insani bir yükseltme yolu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.
Sınıf Dengesizliği ve Uygulamada Yeniden Örnekleme
Hastaların yalnızca yüzde birkaçında görülen nadir bir hastalık için tıbbi bir model oluşturmak, sınıf ağırlıkları uygulamak ve böylece kaçırılan vakaların ağır şekilde cezalandırılmasını sağlamak.
Hastaların yalnızca birkaç yüzdesinde görülen nadir bir hastalık için tıbbi bir model oluşturmak, gözden kaçan vakaların ağır şekilde cezalandırılması için sınıf ağırlıkları uygulamak Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç vakalar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.
Sınıf Dengesizliği ve Uygulamada Yeniden Örnekleme
Hemen hemen tüm ürünlerin muayeneden geçtiği bir üretim hattındaki kusurlu ürünleri tespit etmek, eğitimi dengelemek için 'iyi' ürünlerden daha az örnek almak.
Hemen hemen tüm ürünlerin denetimden geçtiği bir üretim hattındaki kusurlu öğeleri tespit etme, eğitimi dengelemek için 'iyi' öğelerden eksik örnek alma Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.
Sınıf Dengesizliği ve Uygulamada Yeniden Örnekleme
Doğruluk yerine Precision-Recall AUC ile değerlendirilen, normal trafiğin hakim olduğu siber güvenlik günlüklerindeki nadir ağ izinsiz girişlerini işaretleme.
Doğruluk yerine Hassas-Geri Çağırma AUC ile değerlendirilen, normal trafiğin hakim olduğu siber güvenlik günlüklerindeki nadir ağ saldırılarını işaretleme Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.
Riskler ve Korkuluklar
Bir kıyaslamayı optimize etmek daha geniş sistem zayıflıklarını gizleyebilir.
Altyapı ve bakım maliyetleri genellikle hafife alınır.
Sistemler karmaşıklaştıkça güvenlik ve gözlemlenebilirlik boşlukları büyüyebilir.
Uygulama Yol Haritası
Uygulamadan önce gecikmeyi, kaliteyi ve maliyet hedeflerini tanımlayın.
Uygulamadan önce gecikmeyi, kaliteyi ve maliyet hedeflerini tanımlayın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.
Gerçekçi yük ve veri koşulları altında kıyaslama yapın.
Gerçekçi yük ve veri koşulları altında kıyaslama yapın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.
Hatalar, sapmalar ve kullanıcı etkisi için cihaz izleme.
Hatalar, sapmalar ve kullanıcı etkisi için cihaz izleme. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.
Ölçeklendirmeden önce geri alma ve olay müdahale yollarını hazırlayın.
Ölçeklendirmeden önce geri alma ve olay müdahale yollarını hazırlayın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.