Temel Bilgiler KILAVUZU

Çok Aracılı Takviye Öğrenimi

Çok Aracılı Takviyeli Öğrenme (MARL), bir ortamı paylaşan, her biri kendi davranışını uyarlarken diğerleri de uyum sağlayan çeşitli öğrenme aracılarını eğitir.

Genel Bakış

Çok Aracılı Takviyeli Öğrenme (MARL), bir ortamı paylaşan, her biri kendi davranışını uyarlarken diğerleri de uyum sağlayan çeşitli öğrenme aracılarını eğitir. Bu önemli çünkü gerçek dünyadaki sorunların çoğu (trafik, pazarlar, robot ekipleri) bir değil birçok karar vericiyi içeriyor.

Çok Aracılı Takviyeli Öğrenme, temel yapay zeka araç setinde yer alır. Bunu anladığınızda diğer yapay zeka konularının değerlendirilmesi ve karşılaştırılması daha kolay hale gelir.

Derin Dalış

Tek aracılı takviyeli öğrenmede, bir aracı sabit bir ortamda ödülü en üst düzeye çıkararak bir politikayı öğrenir. MARL daha fazla aracı ekler ve bu her şeyi değiştirir: Her aracının bakış açısından ortam durağan değildir çünkü diğerleri politikalarını değiştirmeye devam eder. Temsilciler işbirlikçi (futbol oynayan robotlar gibi bir takım ödülünü paylaşarak), rekabetçi (poker veya takip-kaçırma gibi sıfır toplamlı) veya karışık olabilir. Araştırmacılar, tek ajanlı Markov Karar Sürecini genelleştiren Markov oyunları (stokastik oyunlar) gibi formalizmleri kullanıyor. Ünlü sonuçlar arasında DeepMind'ın AlphaStar'ının StarCraft II'de Büyük Usta'ya ulaşması ve OpenAI Beş profesyonel Dota 2 takımını yenmesi yer alıyor; her ikisi de kendi kendine oyun yoluyla birbirlerine karşı eğitilmiş ajan popülasyonlarına güveniyor.

Teknik Bilgi

Temel zorluk, durağan olmamadır: Her etmen kendi politikasını güncelledikçe, diğerleri hareketli bir hedefle karşı karşıya kalır, dolayısıyla naif bağımsız öğrenmenin yakınsama konusunda başarısız olması mümkündür. Popüler bir düzeltme, MADDPG ve QMIX gibi algoritmalar tarafından kullanılan merkezi olmayan yürütme (CTDE) ile merkezi eğitimdir. Eğitim sırasında bir eleştirmen, kararlı eğimleri hesaplamak için tüm aracıların gözlemlerini ve eylemlerini görür, ancak dağıtım sırasında her aracı yalnızca kendi yerel gözlemlerini kullanarak hareket eder; koordineli öğrenmeyi pratik, bağımsız operasyonla birleştirir.

Çok Aracılı Takviyeli Öğrenmede Uzmanlaşma

Çok Aracılı Takviyeli Öğrenme (MARL), bir ortamı paylaşan, her biri kendi davranışını uyarlarken diğerleri de uyum sağlayan çeşitli öğrenme aracılarını eğitir. Bu önemli çünkü gerçek dünyadaki sorunların çoğu (trafik, pazarlar, robot ekipleri) bir değil birçok karar vericiyi içeriyor. Çok Aracılı Takviyeli Öğrenme, temel yapay zeka araç setinde yer alır. Bunu anladığınızda diğer yapay zeka konularının değerlendirilmesi ve karşılaştırılması daha kolay hale gelir. Derin bir anlayış oluşturmak için, Çok Aracılı Takviyeli Öğrenmeyi tek bir özellik olarak değil, bir işletim modeli olarak ele alın: arzu edilen sonuçları tanımlayın, varsayımları netleştirin ve sistemin güvenilir bir şekilde yapabileceklerini hâlâ uzman görüşü gerektiren şeylerden ayırın.

Uygulamada, Çoklu Ajan Takviyeli Öğrenmeyi kullanan güçlü ekipler önce güçlü kavramsal modeller oluşturur, ardından bu modelleri gerçek üretim kısıtlamalarıyla eşleştirir. Açık başarı kriterlerini belgeliyorlar, gerçekçi verilere ve iş akışlarına göre test ediyorlar ve tek seferlik kıyaslama kazanımları yerine gözlemlenen başarısızlık modellerine dayalı olarak yineleniyorlar. Burası teorik anlayışın ürün, politika ve operasyonlar genelinde dayanıklı yeteneğe dönüştüğü yerdir.

Açık teknik iddiaları pazarlama dilinden ayırmanıza yardımcı olur. Aynı zamanda, Farklı ekipler aynı terimi farklı şekilde kullanabilir; bu nedenle kapsamı erken tanımlayın. En dayanıklı yaklaşım, deneme hızını yönetişim disiplini ile birleştirmektir: pilot uygulamaları çalıştırın, kanıtları toplayın, karar günlüklerini yayınlayın ve model davranışı, kullanıcı beklentileri ve düzenleyici gereksinimler geliştikçe koruma önlemlerini sürekli olarak güncelleyin.

Stratejik Etki

Açık teknik iddiaları pazarlama dilinden ayırmanıza yardımcı olur.

Açık teknik iddiaları pazarlama dilinden ayırmanıza yardımcı olur. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Para veya zaman harcamadan önce daha iyi uygulama soruları sorabilirsiniz.

Para veya zaman harcamadan önce daha iyi uygulama soruları sorabilirsiniz. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Ortak anlayışa sahip ekipler daha iyi ürün, politika ve öğrenme kararları verir.

Ortak anlayışa sahip ekipler daha iyi ürün, politika ve öğrenme kararları verir. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Çok Aracılı Takviyeli Öğrenmenin Geleceği

MARL, temsilcilerin girip çıktığı daha büyük, daha açık sistemlere ve birlikte pazarlık yapan, yetki veren ve araçları kullanan LLM tabanlı temsilcilerden oluşan ekiplere doğru ilerliyor. Ölçeklenebilir kredi tahsisi (büyük bir takımda ödülü hak eden), acil iletişim protokolleri ve rakip acenteler için güvenlik garantileri konusunda ilerleme bekleyebilirsiniz. Otonom araçlar, enerji şebekeleri ve ticaret sistemleri giderek daha fazla etkileşime girdikçe, güçlü çoklu kurum koordinasyonu (ve gizli anlaşmalardan veya istikrarsızlaştırıcı geri bildirim döngülerinden kaçınmak) merkezi bir pratik ve düzenleyici kaygı haline geliyor.

Gerçek Dünya Uygulaması

Depo robotlarından oluşan filoların, paketleri çarpışmadan veya koridorlarda kilitlenmeden yönlendirecek şekilde koordine edilmesi

Her kavşağın şehir çapındaki sıkışıklığı azaltmayı öğrenen bir aracı olduğu trafik sinyali kontrolü

Birçok temsilci arasında kendi kendine oynama yoluyla OpenAI Five (Dota 2) ve AlphaStar (StarCraft II) gibi eğitim oyunu AI

Akıllı bir elektrik şebekesinde dağıtılmış piller ve evler arasında teklifleri ve talep yanıtını yönetme

Uygulama Modelleri

Uygulamada Çok Aracılı Takviyeli Öğrenme

Depo robotlarından oluşan filoları, paketleri çarpışmadan veya koridorlarda kilitlenmeden yönlendirecek şekilde koordine ediyoruz.

Depo robotlarından oluşan filoları, paketleri koridorlarda çarpışmadan veya kilitlenmeden yönlendirecek şekilde koordine etme Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Uygulamada Çok Aracılı Takviyeli Öğrenme

Her kavşağın şehir çapındaki sıkışıklığı azaltmayı öğrenen bir aracı olduğu trafik sinyali kontrolü.

Her bir kavşağın şehir çapındaki sıkışıklığı azaltmayı öğrenen bir aracı olduğu trafik sinyali kontrolü Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Uygulamada Çok Aracılı Takviyeli Öğrenme

Birçok ajan arasında kendi kendine oynama yoluyla OpenAI Five (Dota 2) ve AlphaStar (StarCraft II) gibi AI eğitim oyunu.

OpenAI Five (Dota 2) ve AlphaStar (StarCraft II) gibi eğitim oyunu yapay zekası, birçok aracının kendi kendine oynaması yoluyla Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Uygulamada Çok Aracılı Takviyeli Öğrenme

Akıllı bir elektrik şebekesinde dağıtılmış piller ve evler arasında teklifleri ve talep yanıtını yönetmek.

Akıllı bir elektrik şebekesinde dağıtılmış piller ve evler arasında teklifleri ve talep yanıtını yönetme Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Riskler ve Korkuluklar

!

Farklı ekipler aynı terimi farklı şekilde kullanabilir; bu nedenle kapsamı erken tanımlayın.

!

Gerçek dünya performansı dengesizken karşılaştırmalar güçlü görünebilir.

!

Veri kalitesini ve değerlendirme planlarını göz ardı etmek çoğu zaman hassas sonuçlar doğurur.

Uygulama Yol Haritası

1

İhtiyacınız olan sonucun sade bir dille tanımlanmasıyla başlayın.

İhtiyacınız olan sonucun sade bir dille tanımlanmasıyla başlayın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

2

Test etmeden önce bir başarı ölçüsü ve bir başarısızlık koşulu seçin.

Test etmeden önce bir başarı ölçüsü ve bir başarısızlık koşulu seçin. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

3

Gösterişli bir demo seti yerine, temsili verilerle küçük bir pilot çalışma yürütün.

Gösterişli bir demo seti yerine, temsili verilerle küçük bir pilot çalışma yürütün. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

4

Çok Aracılı Takviyeli Öğrenmenin nerede yardımcı olduğunu ve daha basit yöntemlerin nerede daha iyi olduğunu belgeleyin.

Çok Aracılı Takviyeli Öğrenmenin nerede yardımcı olduğunu ve daha basit yöntemlerin nerede daha iyi olduğunu belgeleyin. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

Keşfetmeye Devam Edin