Teknik KILAVUZ

Sınıf Dengesizliği ve Yeniden Örnekleme

Sınıf dengesizliği, bir sonucun diğerinden çok daha fazla olması durumudur; örneğin 99.

Genel Bakış

Sınıf dengesizliği, bir sonucun diğerinden çok daha fazla olması durumudur (örneğin %99,9 meşru işlemlere karşılık %0,1 dolandırıcılık) ve bu da modellerin nadir fakat önemli sınıfı göz ardı etmesini sağlar. Yeniden örnekleme, eğitim verilerini yeniden dengeler, böylece model aslında azınlığı tespit etmeyi öğrenir.

Sınıf Dengesizliği ve Yeniden Örnekleme, model kalitesini, altyapı maliyetini, gecikmeyi ve güvenilirliği geniş ölçekte etkileyen teknik bir yapı taşıdır.

Derin Dalış

Sınıflar çarpık olduğunda, bir model her zaman çoğunluğu tahmin ederek ve tek bir sahtekarlığı bile yakalamadan %99,9 doğruluğa ulaşabilir ki bu da işe yaramaz. Yeniden örnekleme, eğitim dağılımını iki geniş yolla düzeltir. Aşırı örnekleme, azınlık örneklerini kopyalar veya sentezler - klasik SMOTE (Sentetik Azınlık Aşırı Örnekleme Tekniği), bir azınlık örneği ile en yakın azınlık komşuları arasında bunları kopyalamak yerine enterpolasyon yaparak yeni noktalar oluşturur. Bunun yerine yetersiz örnekleme, verileri çöpe atma pahasına işleri eşitlemek için çoğunluk örneklerini (rastgele veya Tomek bağlantıları veya NearMiss gibi yöntemlerle akıllı bir şekilde) atar. Verilere dokunmaktan kaçınan alternatifler arasında sınıf ağırlıklandırması (kayıp fonksiyonunda azınlık hatalarının daha fazla cezalandırılması) ve eğitim sonrasında karar eşiğinin ayarlanması yer alır.

Teknik Bilgi

Kritik bir kural: yalnızca eğitim kümesini yeniden örnekleyin, hiçbir zaman doğrulama veya test kümesini yeniden örnekleyin ve her zaman çapraz doğrulama katlamalarının içinde yeniden örnekleyin. Bölmeden önce aşırı örnekleme, test setine neredeyse kopya noktaların sızmasına neden olur ve puanları şişirir. Doğruluk burada anlamsız olduğundan değerlendirme, pozitif sınıf nadir olduğunda dürüst kalan ölçümler olan hassasiyete, geri çağırmaya, F1'e, Hassasiyet-Geri Çağırma AUC'sine veya Matthews Korelasyon Katsayısı'na dayanmalıdır.

Sınıf Dengesizliğinde Uzmanlaşma ve Yeniden Örnekleme

Sınıf dengesizliği, bir sonucun diğerinden çok daha fazla olması durumudur (örneğin %99,9 meşru işlemlere karşılık %0,1 dolandırıcılık) ve bu da modellerin nadir fakat önemli sınıfı göz ardı etmesini sağlar. Yeniden örnekleme, eğitim verilerini yeniden dengeler, böylece model aslında azınlığı tespit etmeyi öğrenir. Sınıf Dengesizliği ve Yeniden Örnekleme, model kalitesini, altyapı maliyetini, gecikmeyi ve güvenilirliği geniş ölçekte etkileyen teknik bir yapı taşıdır. Derin bir anlayış oluşturmak için, Sınıf Dengesizliği ve Yeniden Örneklemeyi tek bir özellik olarak değil, bir işletim modeli olarak ele alın: arzu edilen sonuçları tanımlayın, varsayımları netleştirin ve sistemin güvenilir bir şekilde yapabileceklerini hâlâ uzman görüşü gerektiren şeylerden ayırın.

Uygulamada, Sınıf Dengesizliği ve Yeniden Örneklemeyi kullanan güçlü ekipler, mimariyi, verileri ve altyapı seçimlerini güvenilirlik ve maliyete göre optimize eder. Açık başarı kriterlerini belgeliyorlar, gerçekçi verilere ve iş akışlarına göre test ediyorlar ve tek seferlik kıyaslama kazanımları yerine gözlemlenen başarısızlık modellerine dayalı olarak yineleniyorlar. Burası teorik anlayışın ürün, politika ve operasyonlar genelinde dayanıklı yeteneğe dönüştüğü yerdir.

Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler. Aynı zamanda, bir kıyaslamayı optimize etmek daha geniş sistem zayıflıklarını gizleyebilir. En dayanıklı yaklaşım, deneme hızını yönetişim disiplini ile birleştirmektir: pilot uygulamaları çalıştırın, kanıtları toplayın, karar günlüklerini yayınlayın ve model davranışı, kullanıcı beklentileri ve düzenleyici gereksinimler geliştikçe koruma önlemlerini sürekli olarak güncelleyin.

Stratejik Etki

Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler.

Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Teknik eğitim, ekiplerin yalnızca en yenisini değil, doğru yığını seçmesine de yardımcı olur.

Teknik eğitim, ekiplerin yalnızca en yenisini değil, doğru yığını seçmesine de yardımcı olur. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Daha iyi mühendislik seçenekleri, üretimdeki güvenilirlik olaylarını azaltır.

Daha iyi mühendislik seçenekleri, üretimdeki güvenilirlik olaylarını azaltır. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Sınıf Dengesizliğinin Geleceği ve Yeniden Örnekleme

Yeniden örnekleme, dengesiz öğrenme gibi kitaplıkların doğrudan çapraz doğrulamaya entegre edilmesiyle, ML işlem hatları içinde giderek daha fazla otomatik hale getiriliyor. Araştırmalar, genellikle derin ağlarda kaba yeniden örneklemeden daha iyi performans gösteren, kolay çoğunluk örneklerinin ağırlığını azaltan odak kaybı gibi, maliyete duyarlı öğrenmeye ve özelleştirilmiş kayıp işlevlerine doğru kayıyor. Tablo ve görüntü verileri için gerçekçi azınlık örneklerini sentezleyen üretken modeller, SMOTE tarzı enterpolasyonun daha karmaşık bir halefi olarak ortaya çıkıyor.

Gerçek Dünya Uygulaması

Gerçek sahtekarlığın işlemlerin %1'inin çok altında olduğu bir kredi kartı sahtekarlığı dedektörünü eğitmek ve nadir görülen dolandırıcılık vakalarını güçlendirmek için SMOTE'u kullanmak

Hastaların yalnızca yüzde birkaçında görülen nadir bir hastalık için tıbbi bir model oluşturmak, sınıf ağırlıkları uygulayarak gözden kaçırılan vakaların ağır şekilde cezalandırılmasını sağlamak

Neredeyse tüm ürünlerin muayeneden geçtiği bir üretim hattındaki kusurlu ürünleri tespit etmek, eğitimi dengelemek için 'iyi' ürünlerden daha az örnek almak

Doğruluk yerine Precision-Recall AUC ile değerlendirilen, normal trafiğin hakim olduğu siber güvenlik günlüklerindeki nadir ağ izinsiz girişlerini işaretleme

Uygulama Modelleri

Sınıf Dengesizliği ve Uygulamada Yeniden Örnekleme

Gerçek sahtekarlığın işlemlerin %1'in çok altında olduğu bir kredi kartı sahtekarlığı dedektörünü eğitmek ve nadir görülen dolandırıcılık vakalarını güçlendirmek için SMOTE'u kullanmak.

Gerçek sahtekarlığın işlemlerin %1'in çok altında olduğu bir kredi kartı dolandırıcılık dedektörünü eğitmek, nadir dolandırıcılık olaylarını güçlendirmek için SMOTE kullanmak Ekipler genellikle kalite eşiklerini önceden tanımladıklarında, uç durumlar için insani bir yükseltme yolu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Sınıf Dengesizliği ve Uygulamada Yeniden Örnekleme

Hastaların yalnızca yüzde birkaçında görülen nadir bir hastalık için tıbbi bir model oluşturmak, sınıf ağırlıkları uygulamak ve böylece kaçırılan vakaların ağır şekilde cezalandırılmasını sağlamak.

Hastaların yalnızca birkaç yüzdesinde görülen nadir bir hastalık için tıbbi bir model oluşturmak, gözden kaçan vakaların ağır şekilde cezalandırılması için sınıf ağırlıkları uygulamak Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç vakalar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Sınıf Dengesizliği ve Uygulamada Yeniden Örnekleme

Hemen hemen tüm ürünlerin muayeneden geçtiği bir üretim hattındaki kusurlu ürünleri tespit etmek, eğitimi dengelemek için 'iyi' ürünlerden daha az örnek almak.

Hemen hemen tüm ürünlerin denetimden geçtiği bir üretim hattındaki kusurlu öğeleri tespit etme, eğitimi dengelemek için 'iyi' öğelerden eksik örnek alma Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Sınıf Dengesizliği ve Uygulamada Yeniden Örnekleme

Doğruluk yerine Precision-Recall AUC ile değerlendirilen, normal trafiğin hakim olduğu siber güvenlik günlüklerindeki nadir ağ izinsiz girişlerini işaretleme.

Doğruluk yerine Hassas-Geri Çağırma AUC ile değerlendirilen, normal trafiğin hakim olduğu siber güvenlik günlüklerindeki nadir ağ saldırılarını işaretleme Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Riskler ve Korkuluklar

!

Bir kıyaslamayı optimize etmek daha geniş sistem zayıflıklarını gizleyebilir.

!

Altyapı ve bakım maliyetleri genellikle hafife alınır.

!

Sistemler karmaşıklaştıkça güvenlik ve gözlemlenebilirlik boşlukları büyüyebilir.

Uygulama Yol Haritası

1

Uygulamadan önce gecikmeyi, kaliteyi ve maliyet hedeflerini tanımlayın.

Uygulamadan önce gecikmeyi, kaliteyi ve maliyet hedeflerini tanımlayın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

2

Gerçekçi yük ve veri koşulları altında kıyaslama yapın.

Gerçekçi yük ve veri koşulları altında kıyaslama yapın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

3

Hatalar, sapmalar ve kullanıcı etkisi için cihaz izleme.

Hatalar, sapmalar ve kullanıcı etkisi için cihaz izleme. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

4

Ölçeklendirmeden önce geri alma ve olay müdahale yollarını hazırlayın.

Ölçeklendirmeden önce geri alma ve olay müdahale yollarını hazırlayın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

Keşfetmeye Devam Edin