PANDUAN AI Bahasa

Optimasi Preferensi Langsung

Pengoptimalan Preferensi Langsung (DPO) adalah cara untuk menyelaraskan model bahasa dengan preferensi manusia tanpa melatih model penghargaan terpisah atau menjalankan pembelajaran penguatan.

Ikhtisar

Pengoptimalan Preferensi Langsung adalah bagian dari tumpukan AI bahasa yang digunakan untuk membaca, menghasilkan, mengklasifikasikan, dan mengubah teks dan ucapan dalam skala besar.

Menyelam Lebih Dalam

DPO, yang diperkenalkan oleh Rafailov dan rekan-rekannya di Stanford pada tahun 2023, memikirkan kembali cara kami mengajarkan model yang disukai orang. Pendekatan tradisional (RLHF) melatih model penghargaan pada perbandingan manusia, kemudian menggunakan pembelajaran penguatan untuk memaksimalkan penghargaan tersebut. Wawasan utama DPO bersifat matematis: kebijakan optimal berdasarkan tujuan RLHF tersebut memiliki hubungan tertutup dengan imbalannya, sehingga Anda dapat mengatur ulang persamaan dan mengoptimalkan model bahasa secara langsung pada pasangan preferensi. Anda memberikannya prompt, respons 'dipilih' (disukai), dan respons 'ditolak', dan kerugian gaya klasifikasi sederhana mendorong model untuk membuat jawaban yang dipilih relatif lebih mungkin. Tidak ada model imbalan, tidak ada putaran pengambilan sampel, tidak ada peretasan imbalan. Jauh lebih sederhana dan lebih stabil untuk dijalankan.

Wawasan Teknis

DPO menggunakan kerugian entropi silang biner atas pasangan preferensi. Hal ini meningkatkan rasio log-probabilitas dari respons yang dipilih relatif terhadap respons yang ditolak, masing-masing diukur berdasarkan model referensi yang dibekukan (biasanya titik awal yang diawasi dan disesuaikan). Parameter suhu beta mengontrol seberapa jauh kebijakan dapat menyimpang dari referensi tersebut, dan secara implisit menerapkan batasan KL yang diterapkan oleh RLHF secara eksplisit. Imbalannya tidak pernah terwujud; hal ini tersirat dalam probabilitas log kebijakan itu sendiri.

Menguasai Optimasi Preferensi Langsung

Pengoptimalan Preferensi Langsung (DPO) adalah cara untuk menyelaraskan model bahasa dengan preferensi manusia tanpa melatih model penghargaan terpisah atau menjalankan pembelajaran penguatan. Ini meruntuhkan pipeline multi-tahap yang kompleks menjadi satu kerugian pelatihan yang stabil. Pengoptimalan Preferensi Langsung adalah bagian dari tumpukan AI bahasa yang digunakan untuk membaca, menghasilkan, mengklasifikasikan, dan mengubah teks dan ucapan dalam skala besar. Untuk membangun pemahaman yang mendalam, perlakukan Pengoptimalan Preferensi Langsung sebagai model operasi, bukan fitur tunggal: tentukan hasil yang diinginkan, klarifikasi asumsi, dan pisahkan apa yang dapat dilakukan sistem dengan andal dari apa yang masih memerlukan penilaian ahli.

Dalam praktiknya, tim yang kuat menggunakan petunjuk desain, pengambilan, dan peninjauan Pengoptimalan Preferensi Langsung sebagai satu sistem komunikasi terintegrasi. Mereka mendokumentasikan kriteria keberhasilan yang eksplisit, menguji berdasarkan data dan alur kerja yang realistis, dan melakukan iterasi berdasarkan pola kegagalan yang diamati, bukan berdasarkan kemenangan tolok ukur yang hanya terjadi satu kali. Di sinilah pemahaman teoritis berubah menjadi kemampuan yang tahan lama di seluruh produk, kebijakan, dan operasi.

Alur kerja bahasa dapat berjalan lebih cepat tanpa mengorbankan konsistensi. Pada saat yang sama, fakta-fakta halusinasi dapat secara diam-diam masuk ke dalam laporan, aliran dukungan, atau keluaran penelitian. Pendekatan yang paling tangguh adalah menggabungkan kecepatan eksperimen dengan disiplin tata kelola: menjalankan uji coba, menangkap bukti, menerbitkan catatan keputusan, dan terus memperbarui upaya perlindungan seiring dengan berkembangnya perilaku model, harapan pengguna, dan persyaratan peraturan.

Dampak Strategis

Alur kerja bahasa dapat berjalan lebih cepat tanpa mengorbankan konsistensi.

Alur kerja bahasa dapat berjalan lebih cepat tanpa mengorbankan konsistensi. Dalam penerapan berkualitas tinggi, hal ini diterjemahkan ke dalam aturan operasi yang terukur, batasan kepemilikan, dan ritual peninjauan berulang sehingga tim dapat meningkatkan kepercayaan diri alih-alih menskalakan ambiguitas.

Ini memperluas akses lintas bahasa dan gaya komunikasi.

Ini memperluas akses lintas bahasa dan gaya komunikasi. Dalam penerapan berkualitas tinggi, hal ini diterjemahkan ke dalam aturan operasi yang terukur, batasan kepemilikan, dan ritual peninjauan berulang sehingga tim dapat meningkatkan kepercayaan diri alih-alih menskalakan ambiguitas.

Tim dapat menghabiskan lebih banyak waktu untuk melakukan penilaian sementara otomatisasi menangani pengulangan.

Tim dapat menghabiskan lebih banyak waktu untuk melakukan penilaian sementara otomatisasi menangani pengulangan. Dalam penerapan berkualitas tinggi, hal ini diterjemahkan ke dalam aturan operasi yang terukur, batasan kepemilikan, dan ritual peninjauan berulang sehingga tim dapat meningkatkan kepercayaan diri alih-alih menskalakan ambiguitas.

Masa Depan Optimasi Preferensi Langsung

DPO telah menjadi metode penyelarasan default karena murah dan dapat direproduksi, serta melahirkan serangkaian varian: IPO memperbaiki overfitting pada preferensi yang hampir deterministik, KTO belajar dari satu label baik atau buruk, bukan berpasangan, dan ORPO melipatgandakan pembelajaran preferensi menjadi penyesuaian tanpa model referensi. Diharapkan adanya upaya berkelanjutan untuk menggabungkan DPO dengan data sesuai kebijakan dan debiasing panjang/kualitas, sehingga mempersempit kesenjangan yang tersisa dengan RLHF online penuh.

Implementasi Dunia Nyata

Menyempurnakan model obrolan terbuka seperti Zephyr dan banyak turunan Llama dan Mistral, yang diselaraskan dengan DPO pada kumpulan data preferensi

Mengurangi keluaran yang merugikan atau tidak membantu dengan menggunakan pasangan dimana jawaban yang aman dan bermanfaat 'dipilih' daripada jawaban yang bermasalah

Mengajari asisten pengkodean untuk memilih solusi yang benar dan terdokumentasi dengan baik daripada solusi yang bermasalah menggunakan perbandingan yang dinilai pengembang

Menyesuaikan gaya peringkasan sehingga model lebih menyukai ringkasan yang ringkas dan tepat dibandingkan ringkasan yang bertele-tele atau berhalusinasi

Pola Implementasi

Optimasi Preferensi Langsung dalam praktiknya

Menyempurnakan model obrolan terbuka seperti Zephyr dan banyak turunan Llama dan Mistral, yang diselaraskan dengan DPO pada kumpulan data preferensi.

Menyempurnakan model obrolan terbuka seperti Zephyr dan banyak turunan Llama dan Mistral, yang diselaraskan dengan DPO pada kumpulan data preferensi. Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, menjaga jalur eskalasi manusia untuk kasus-kasus edge, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Optimasi Preferensi Langsung dalam praktiknya

Mengurangi keluaran yang merugikan atau tidak membantu dengan menggunakan pasangan dimana jawaban yang aman dan bermanfaat 'dipilih' daripada jawaban yang bermasalah.

Mengurangi hasil yang merugikan atau tidak membantu menggunakan pasangan yang 'memilih' jawaban yang aman dan bermanfaat dibandingkan jawaban yang bermasalah. Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, menjaga jalur eskalasi manusia untuk kasus-kasus yang sulit, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Optimasi Preferensi Langsung dalam praktiknya

Mengajari asisten pengkodean untuk memilih solusi yang benar dan terdokumentasi dengan baik daripada solusi yang bermasalah menggunakan perbandingan yang dinilai pengembang.

Mengajarkan asisten pengkodean untuk memilih solusi yang benar dan terdokumentasi dengan baik dibandingkan solusi yang bermasalah menggunakan perbandingan yang dinilai oleh pengembang. Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, menjaga jalur eskalasi manusia untuk kasus-kasus edge, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Optimasi Preferensi Langsung dalam praktiknya

Menyesuaikan gaya peringkasan sehingga model lebih menyukai ringkasan yang ringkas dan tepat dibandingkan ringkasan yang bertele-tele atau berhalusinasi.

Menyesuaikan gaya peringkasan sehingga model lebih menyukai ringkasan yang ringkas dan tepat dibandingkan yang bertele-tele atau berhalusinasi. Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, mempertahankan jalur eskalasi yang manusiawi untuk kasus-kasus yang sulit, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Risiko & Pagar Pembatas

Fakta-fakta yang dihalusinasi dapat secara diam-diam masuk ke dalam laporan, aliran dukungan, atau keluaran penelitian.

Sensitivitas yang cepat dapat menimbulkan hasil yang tidak konsisten pada permintaan serupa.

Data teks sensitif mungkin terekspos jika kontrol akses lemah.

Peta Jalan Implementasi

Tentukan format output, nada, dan standar kualitas sebelum peluncuran.

Tentukan format output, nada, dan standar kualitas sebelum peluncuran. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

Dasarkan respons dengan sumber tepercaya kapan pun akurasi penting.

Dasarkan respons dengan sumber tepercaya kapan pun akurasi penting. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

Pertahankan pos pemeriksaan tinjauan manusia untuk keluaran berisiko tinggi.

Pertahankan pos pemeriksaan tinjauan manusia untuk keluaran berisiko tinggi. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

Lacak pola kegagalan dan latih kembali perintah atau alur kerja secara teratur.

Lacak pola kegagalan dan latih kembali perintah atau alur kerja secara teratur. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

Terus Menjelajah

ChatGPT & LLM

Lihat bagaimana model bahasa modern menghasilkan dan bernalar.

Baca Panduan

Dasar-dasar NLP

Pelajari dasar-dasar pemrosesan bahasa di balik alat-alat ini.

Baca Panduan