Uygulama KILAVUZU

Yansıma ve Kendini Düzelten Ajanlar

Düşünme, bir yapay zeka temsilcisinin kendi başarısızlıklarını yazılı olarak yansıttığı ve bu dersleri bir sonraki girişimine geri aktardığı bir tekniktir.

Genel Bakış

Düşünme, bir yapay zeka temsilcisinin kendi başarısızlıklarını yazılı olarak yansıttığı ve bu dersleri bir sonraki girişimine geri aktardığı bir tekniktir. Bu önemlidir çünkü temsilcilerin temel modeli yeniden eğitmeden bir görevi geliştirmelerine olanak tanır.

Reflexion ve Self-Correcting Agents pratik dağıtıma odaklanır: model yeteneğini ölçülebilir değer sağlayan güvenilir günlük iş akışlarına dönüştürmek.

Derin Dalış

Shinn ve meslektaşlarının 2023 tarihli bir makalesinde tanıtılan Reflexion, bir aracıya bir döngü veriyor: Bir göreve girişiyor, nasıl yaptığına dair bir sinyal alıyor (bir test sonucu, bir ödül veya bir eleştiri), ardından neyin yanlış gittiğini ve daha sonra ne deneneceğini açıklayan kısa bir doğal dil 'yansıtma' yazıyor. Bu yansıma bellekte saklanır ve bir sonraki denemenin isteminin başına eklenir. En önemlisi, modelin ağırlıkları asla değişmiyor; öğrenme tamamen bağlam penceresinde metin olarak gerçekleşir. Bu 'sözlü takviyeli öğrenme', temsilcilerin kodlama problemlerini, web'de gezinmeyi ve akıl yürütme görevlerini yinelemelerine olanak tanır. HumanEval kodlama kriterinde, Reflexion tarzı kendi kendini düzeltme, aracının birkaç denemede kendi hatalarını ayıklamasına izin vererek, geçiş oranlarını tek atışlı denemelerden önemli ölçüde daha yükseğe çıkardı.

Teknik Bilgi

Reflexion üç rolü ayırır: eylemleri üreten bir Aktör, sonucu puanlayan bir Değerlendirici (birim testleri, tam eşleşme kontrolü veya bir Yüksek Lisans jürisi) ve bu puanı metinsel bir derse dönüştüren bir Kendini Yansıtma modeli. Ders, bir sonraki denemede yeniden kullanılan epizodik bir hafıza arabelleğine yerleştirilir. Geri bildirim, geçişlerden ziyade dil olduğundan, herhangi bir GPU eğitimine gerek yoktur, ancak kendinden emin ancak yanlış düşüncelerin güçlendirilmesini önlemek için büyük ölçüde güvenilir bir değerlendirme sinyaline bağlıdır.

Yansıma ve Kendini Düzelten Ajanlarda Uzmanlaşmak

Düşünme, bir yapay zeka temsilcisinin kendi başarısızlıklarını yazılı olarak yansıttığı ve bu dersleri bir sonraki girişimine geri aktardığı bir tekniktir. Bu önemlidir çünkü temsilcilerin temel modeli yeniden eğitmeden bir görevi geliştirmelerine olanak tanır. Reflexion ve Self-Correcting Agents pratik dağıtıma odaklanır: model yeteneğini ölçülebilir değer sağlayan güvenilir günlük iş akışlarına dönüştürmek. Derin bir anlayış oluşturmak için, Yansıma ve Kendini Düzelten Aracıları tek bir özellik olarak değil, bir işletim modeli olarak ele alın: istenen sonuçları tanımlayın, varsayımları netleştirin ve sistemin güvenilir bir şekilde yapabileceklerini hâlâ uzman görüşü gerektiren şeylerden ayırın.

Uygulamada, Reflexion ve Self-Correcting Agent'ları kullanan güçlü ekipler, model demolarına değil, iş akışı sonuçlarına odaklanır ve insan kontrol noktalarını erken tanımlar. Açık başarı kriterlerini belgeliyorlar, gerçekçi verilere ve iş akışlarına göre test ediyorlar ve tek seferlik kıyaslama kazanımları yerine gözlemlenen başarısızlık modellerine dayalı olarak yineleniyorlar. Burası teorik anlayışın ürün, politika ve operasyonlar genelinde dayanıklı yeteneğe dönüştüğü yerdir.

Uygulama düzeyinde tasarım, yapay zekanın gerçek sonuçları iyileştirip iyileştirmediğini belirler. Aynı zamanda bozuk bir süreci otomatikleştirmek mevcut sorunları daha da büyütebilir. En dayanıklı yaklaşım, deneme hızını yönetişim disiplini ile birleştirmektir: pilot uygulamaları çalıştırın, kanıtları toplayın, karar günlüklerini yayınlayın ve model davranışı, kullanıcı beklentileri ve düzenleyici gereksinimler geliştikçe koruma önlemlerini sürekli olarak güncelleyin.

Stratejik Etki

Uygulama düzeyinde tasarım, yapay zekanın gerçek sonuçları iyileştirip iyileştirmediğini belirler.

Uygulama düzeyinde tasarım, yapay zekanın gerçek sonuçları iyileştirip iyileştirmediğini belirler. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

İyi iş akışı entegrasyonu, kullanıcıların güvenebileceği üretkenlik kazanımları sağlar.

İyi iş akışı entegrasyonu, kullanıcıların güvenebileceği üretkenlik kazanımları sağlar. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

İyi kapsamlı kullanım örnekleri, değişiklik yorgunluğunu ve uygulama riskini azaltır.

İyi kapsamlı kullanım örnekleri, değişiklik yorgunluğunu ve uygulama riskini azaltır. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Yansıma ve Kendi Kendini Düzelten Ajanların Geleceği

Kendi kendini düzeltme, aracı çerçevelerinde bir araştırma hilesi olmaktan ziyade varsayılan bir katman haline geliyor. Kod sanal alanları, resmi denetleyiciler ve gerçekleri doğrulayan erişim gibi otomatik doğrulayıcılarla daha sıkı entegrasyon bekleyebilirsiniz; böylece yansımalar, modelin kendisini ikinci kez tahmin etmesi yerine nesnel sinyallere dayandırılır. Açık zorluklar, bir aracının çalışma çıktısını sonsuz bir şekilde 'düzelttiği' döngülerden kaçınmak, yinelemeyi ne zaman durduracağına karar vermek ve yansımaların makul görünen ancak doğrulanmamış rasyonelleştirmelere sürüklenmesini önlemektir.

Gerçek Dünya Uygulaması

Birim testlerini çalıştıran, başarısız iddiayı okuyan, hata hakkında bir not yazan ve paketi yeniden çalıştırmadan önce kodunu düzenleyen bir kodlama aracısı.

Geri alma kontrolü başarısız olduğunda halüsinasyonlu bir alıntıyı yakalayan ve ardından yanıtı yalnızca doğrulanmış kaynakları kullanacak şekilde revize eden bir araştırma asistanı.

'Yanlış filtreye tıkladım' ifadesini kaydeden ve yeniden denemede bu yanlış adımı önleyen bir web navigasyon aracısı (örneğin, AlfWorld veya WebShop kıyaslamalarında).

Son cevabını bir kısıtlamaya göre kontrol eden, bir işaret hatasını fark eden ve ilgili adımı yeniden işleyen bir matematik problemi çözücü.

Uygulama Modelleri

Uygulamada Yansıma ve Kendini Düzelten Ajanlar

Birim testlerini çalıştıran, başarısız iddiayı okuyan, hata hakkında bir not yazan ve paketi yeniden çalıştırmadan önce kodunu düzenleyen bir kodlama aracısı.

Birim testleri çalıştıran, başarısız iddiayı okuyan, hata hakkında bir not yazan ve paketi yeniden çalıştırmadan önce kodunu düzenleyen bir kodlama aracısı Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Uygulamada Yansıma ve Kendini Düzelten Ajanlar

Geri alma kontrolü başarısız olduğunda halüsinasyonlu bir alıntıyı yakalayan ve ardından yanıtı yalnızca doğrulanmış kaynakları kullanacak şekilde revize eden bir araştırma asistanı.

Geri alma kontrolü başarısız olduğunda halüsinasyonlu bir alıntıyı yakalayan ve ardından yanıtı yalnızca doğrulanmış kaynakları kullanacak şekilde revize eden bir araştırma asistanı Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolu tuttuklarında ve hem üretkenlik kazanımlarını hem de zaman içindeki hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Uygulamada Yansıma ve Kendini Düzelten Ajanlar

'Yanlış filtreye tıkladım' ifadesini kaydeden ve yeniden denemede bu yanlış adımı önleyen bir web navigasyon aracısı (örneğin, AlfWorld veya WebShop kıyaslamalarında).

'Yanlış filtreye tıkladım' durumunu kaydeden ve yeniden deneme sırasındaki yanlış adımlardan kaçınan bir web navigasyon aracısı (örneğin, AlfWorld veya WebShop kıyaslamalarında) Ekipler genellikle kalite eşiklerini önceden tanımladıklarında, uç durumlar için insani bir yükseltme yolu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Uygulamada Yansıma ve Kendini Düzelten Ajanlar

Son cevabını bir kısıtlamaya göre kontrol eden, bir işaret hatasını fark eden ve ilgili adımı yeniden işleyen bir matematik problemi çözücü.

Nihai cevabını bir kısıtlamaya göre kontrol eden, bir işaret hatasını fark eden ve ilgili adımı yeniden işleyen bir matematik problemi çözücü Ekipler genellikle kalite eşiklerini önceden tanımladıklarında, uç durumlar için insani bir yükseltme yolu tuttuklarında ve hem üretkenlik kazanımlarını hem de zaman içindeki hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Riskler ve Korkuluklar

!

Bozuk bir süreci otomatikleştirmek mevcut sorunları büyütebilir.

!

Ekipler aşırı otomatikleşebilir ve gerekli insan muhakemesini ortadan kaldırabilir.

!

Çıktılar sürekli olarak değerlendirilmezse kalite düşebilir.

Uygulama Yol Haritası

1

Mevcut iş akışının haritasını çıkarın ve en yüksek sürtünmeli adımı belirleyin.

Mevcut iş akışının haritasını çıkarın ve en yüksek sürtünmeli adımı belirleyin. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

2

Tam otomasyondan önce insan kontrol noktalarını tanımlayın.

Tam otomasyondan önce insan kontrol noktalarını tanımlayın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

3

Kullanıcıları istemler, yükseltme yolları ve kalite standartları konusunda eğitin.

Kullanıcıları istemler, yükseltme yolları ve kalite standartları konusunda eğitin. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

4

Sürdürülebilir değeri doğrulamak için görev düzeyindeki sonuçları izleyin.

Sürdürülebilir değeri doğrulamak için görev düzeyindeki sonuçları izleyin. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

Keşfetmeye Devam Edin