Dil AI KILAVUZU

Oran Oranı Tercihi Optimizasyonu

Oran Oranı Tercih Optimizasyonu (ORPO), tek bir eğitim geçişinde bir dil modeline iyi davranışı ve insan tercihlerini öğreten bir ince ayar yöntemidir.

Genel Bakış

Oran Oranı Tercihi Optimizasyonu, metni ve konuşmayı uygun ölçekte okumak, oluşturmak, sınıflandırmak ve dönüştürmek için kullanılan dil-yapay zeka yığınının bir parçasıdır.

Derin Dalış

Hong, Lee ve Thorne tarafından 2024'te tanıtılan ORPO, denetimli ince ayar ve tercih hizalamasını tek adımda birleştiriyor. Çoğu hizalama işlem hattı ilk olarak iyi örnekler üzerinde SFT yapar, ardından modelin dondurulmuş bir kopyasını (bir referans) artı kayıtlı tercih çiftlerini gerektiren RLHF veya DPO gibi ikinci bir yöntemi çalıştırır. ORPO referans modelini tamamen kaldırır. Kaybı, standart sonraki jeton hedefine bir ceza terimi ekler: modelin seçilen (tercih edilen) yanıta atadığı olasılıkları artırırken, reddedilen yanıtın olasılığını düşürür. Güçlü bir log-olasılık farkı yerine olasılık oranını kullandığı için ceza hafiftir, bu nedenle model, akıcı nesli felaketle unutmadan iyi cevapları tercih etmeyi öğrenir.

Teknik Bilgi

ORPO'nun kaybı, SFT çapraz entropi kaybı artı seçilen ve reddedilen yanıtlar arasındaki log olasılık oranının ağırlıklı log-sigmoididir. Oranlar p/(1-p)'ye eşittir; dolayısıyla oran, modelin kötü yanıta karşı iyi yanıtı bulma olasılığının ne kadar yüksek olduğunu karşılaştırır. Ham olasılık yerine olasılıkların kullanılması kontrastı hafif tutar, bu da referans verilmeyen bir modeli bozabilecek reddedilen tokenların aşırı bastırılmasını önler.

Oran Oranı Tercihi Optimizasyonunda Uzmanlaşmak

Oran Oranı Tercih Optimizasyonu (ORPO), tek bir eğitim geçişinde bir dil modeline iyi davranışı ve insan tercihlerini öğreten bir ince ayar yöntemidir. Bu önemlidir çünkü olağan ayrı ödül modelini ve referans modelini atlayarak hizalamayı daha ucuz ve daha basit hale getirir. Oran Oranı Tercihi Optimizasyonu, metni ve konuşmayı uygun ölçekte okumak, oluşturmak, sınıflandırmak ve dönüştürmek için kullanılan dil-yapay zeka yığınının bir parçasıdır. Derin bir anlayış oluşturmak için Olasılık Oranı Tercihi Optimizasyonunu tek bir özellik olarak değil, bir işletim modeli olarak ele alın: arzu edilen sonuçları tanımlayın, varsayımları netleştirin ve sistemin güvenilir bir şekilde yapabileceklerini hâlâ uzman görüşü gerektiren şeylerden ayırın.

Uygulamada, Oran Oranı Tercih Optimizasyonu tasarımını kullanan güçlü ekipler tek bir entegre iletişim sistemi olarak döngüleri yönlendirir, alır ve gözden geçirir. Açık başarı kriterlerini belgeliyorlar, gerçekçi verilere ve iş akışlarına göre test ediyorlar ve tek seferlik kıyaslama kazanımları yerine gözlemlenen başarısızlık modellerine dayalı olarak yineleniyorlar. Burası teorik anlayışın ürün, politika ve operasyonlar genelinde dayanıklı yeteneğe dönüştüğü yerdir.

Dil iş akışları tutarlılıktan ödün vermeden daha hızlı ilerleyebilir. Aynı zamanda Halüsinasyonlu gerçekler sessizce raporlara, destek akışlarına veya araştırma çıktılarına girebilir. En dayanıklı yaklaşım, deneme hızını yönetişim disiplini ile birleştirmektir: pilot uygulamaları çalıştırın, kanıtları toplayın, karar günlüklerini yayınlayın ve model davranışı, kullanıcı beklentileri ve düzenleyici gereksinimler geliştikçe koruma önlemlerini sürekli olarak güncelleyin.

Stratejik Etki

Dil iş akışları tutarlılıktan ödün vermeden daha hızlı ilerleyebilir.

Dil iş akışları tutarlılıktan ödün vermeden daha hızlı ilerleyebilir. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Diller ve iletişim tarzları arasında erişimi genişletir.

Diller ve iletişim tarzları arasında erişimi genişletir. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Otomasyon tekrarlamayı yönetirken ekipler karar vermeye daha fazla zaman ayırabilir.

Otomasyon tekrarlamayı yönetirken ekipler karar vermeye daha fazla zaman ayırabilir. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Olasılık Oranı Tercih Optimizasyonunun Geleceği

ORPO, sınırlı donanım üzerinde ince ayar yapan ekipler için cazip olan referans modelini bırakarak hafızayı ve hesaplamayı azalttığı için ilgi kazanıyor. Açık kaynaklı tariflerde daha sık ve Hugging Face TRL gibi kitaplıklarda varsayılan seçenek olarak görünmesini bekleyin. Gelecekteki çalışmalar muhtemelen lambda ağırlıklandırmasını otomatik olarak ayarlayacak, ORPO'yu diğer referanssız hedeflerle harmanlayacak ve bunu iki kopyayı bellekte tutmanın maliyetli olduğu çok modlu ve çok büyük modellere genişletecek.

Gerçek Dünya Uygulaması

Açık kaynaklı bir 7B sohbet modeline ikinci bir referans kopyası yüklemeden tercih çiftlerinde ince ayar yapılması, GPU belleğinin yarıya indirilmesi

Bir müşteri destek asistanını, SFT ve ardından DPO yerine tek bir eğitim çalıştırmasında kibar, politikaya uygun yanıtları tercih edecek şekilde ayarlayan bir girişim

Daha düşük bilgi işlemle karşılaştırılabilir uyum göstermek için aynı veri kümesinde ORPO'yu DPO ile karşılaştıran araştırmacılar

Temel modeli, iyi ve kötü örnek çiftlerinin mevcut olduğu ancak ödül modeli bütçesinin bulunmadığı özel bir alana (örneğin, yasal taslak hazırlama) uyarlamak

Uygulama Modelleri

Pratikte Oran Oranı Tercih Optimizasyonu

Açık kaynaklı bir 7B sohbet modeline, ikinci bir referans kopyası yüklemeden tercih çiftlerinde ince ayar yapılması, GPU belleğinin yarıya indirilmesi.

İkinci bir referans kopyası yüklemeden tercih çiftleri üzerinde açık kaynaklı bir 7B sohbet modeline ince ayar yapma, GPU belleğini yarıya indirme Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Pratikte Oran Oranı Tercih Optimizasyonu

Bir müşteri destek asistanını, SFT ve ardından DPO yerine tek bir eğitim çalıştırmasında kibar, politikaya uygun yanıtları tercih edecek şekilde ayarlayan bir girişim.

Bir müşteri destek asistanını, SFT ve ardından DPO yerine tek bir eğitim çalıştırmasında kibar, politikaya uygun yanıtları tercih edecek şekilde ayarlayan bir girişim. Ekipler, kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde genellikle daha iyi sonuçlar elde ederler.

Pratikte Oran Oranı Tercih Optimizasyonu

Daha düşük bilgi işlemle karşılaştırılabilir bir uyum göstermek için aynı veri kümesinde ORPO'yu DPO ile karşılaştıran araştırmacılar.

Daha düşük bilgi işlemle karşılaştırılabilir uyum göstermek için aynı veri kümesinde ORPO'yu DPO ile karşılaştıran araştırmacılar Ekipler, kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini izlediklerinde genellikle daha iyi sonuçlar elde ederler.

Pratikte Oran Oranı Tercih Optimizasyonu

Bir temel modeli, iyi ve kötü örnek çiftlerinin mevcut olduğu ancak ödül modeli bütçesinin bulunmadığı özel bir alana (örneğin, yasal taslak hazırlama) uyarlamak.

Temel modeli, iyi ve kötü örnek çiftlerinin mevcut olduğu ancak ödül modeli bütçesinin bulunmadığı özel bir alana (örneğin, yasal taslak hazırlama) uyarlamak Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Riskler ve Korkuluklar

Halüsinasyonlu gerçekler sessizce raporlara, destek akışlarına veya araştırma çıktılarına girebilir.

İstem hassasiyeti, benzer istekler arasında tutarsız sonuçlar yaratabilir.

Erişim kontrolleri zayıfsa hassas metin verileri açığa çıkabilir.

Uygulama Yol Haritası

Kullanıma sunmadan önce çıktı formatını, tonunu ve kalite standartlarını tanımlayın.

Kullanıma sunmadan önce çıktı formatını, tonunu ve kalite standartlarını tanımlayın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

Doğruluğun önemli olduğu durumlarda güvenilir kaynaklarla zemin müdahaleleri.

Doğruluğun önemli olduğu durumlarda güvenilir kaynaklarla zemin müdahaleleri. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

Yüksek riskli çıktılar için insan incelemesi kontrol noktası bulundurun.

Yüksek riskli çıktılar için insan incelemesi kontrol noktası bulundurun. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

Arıza modellerini takip edin ve istemleri veya iş akışlarını düzenli olarak yeniden eğitin.

Arıza modellerini takip edin ve istemleri veya iş akışlarını düzenli olarak yeniden eğitin. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

Keşfetmeye Devam Edin

ChatGPT ve Yüksek Lisans'lar

Modern dil modellerinin nasıl oluştuğunu ve akıl yürüttüğünü görün.

Kılavuzu Okuyun

NLP Temelleri

Bu araçların ardındaki dil işlemenin temellerini öğrenin.

Kılavuzu Okuyun