PANDUAN Teknis

Optimasi Kebijakan Relatif Grup

Pengoptimalan Kebijakan Relatif Grup (GRPO) adalah metode pembelajaran penguatan untuk menyempurnakan model bahasa yang menilai setiap jawaban berdasarkan sekelompok jawaban saudara terhadap perintah yang sama, menghilangkan jaringan nilai terpisah yang digunakan oleh PPO.

Ikhtisar

Pengoptimalan Kebijakan Relatif Grup (GRPO) adalah metode pembelajaran penguatan untuk menyempurnakan model bahasa yang menilai setiap jawaban berdasarkan sekelompok jawaban saudara terhadap perintah yang sama, menghilangkan jaringan nilai terpisah yang digunakan oleh PPO. Ini menjadi terkenal sebagai trik pelatihan inti di balik model penalaran DeepSeek.

Pengoptimalan Kebijakan Relatif Grup adalah komponen teknis yang memengaruhi kualitas model, biaya infrastruktur, latensi, dan keandalan dalam skala besar.

Menyelam Lebih Dalam

GRPO adalah varian pembelajaran penguatan gradien kebijakan yang dirancang untuk membuat penyesuaian RL pada model bahasa besar menjadi lebih murah dan stabil. PPO standar memerlukan 'kritikus' (model nilai) yang terpelajar, yang kira-kira sama besarnya dengan kebijakan itu sendiri, untuk memperkirakan seberapa baik setiap token. GRPO menghilangkan kritik tersebut sepenuhnya. Untuk setiap perintah, ia mengambil sampel sekelompok penyelesaian (katakanlah 8-64), menilai semuanya dengan sinyal imbalan, lalu menghitung keuntungan setiap penyelesaian dengan membakukan imbalannya terhadap rata-rata dan deviasi standar kelompok tersebut. Jawaban yang di atas rata-rata akan diperkuat dan jawaban yang di bawah rata-rata akan dihilangkan. Istilah KL-divergence membuat model tetap dekat dengan kebijakan acuan. Diperkenalkan oleh DeepSeek, ini mendukung model penalaran DeepSeekMath dan DeepSeek-R1.

Wawasan Teknis

Ide utamanya adalah mengganti data dasar nilai yang dipelajari PPO dengan data dasar grup Monte Carlo. Untuk sekelompok keluaran dengan imbalan r_i, masing-masing keuntungannya adalah A_i = (r_i - mean(r)) / std(r). Skor yang dinormalisasi tersebut mengalikan rasio probabilitas yang terpotong, persis seperti pada PPO, dan penalti KL terhadap model referensi yang dibekukan membatasi penyimpangan. Karena tidak ada kritikus yang dilatih, memori dan komputasi berkurang setengahnya, dan normalisasi per-prompt memberikan keuntungan dengan skala alami dan variansi rendah.

Menguasai Optimasi Kebijakan Relatif Grup

Pengoptimalan Kebijakan Relatif Grup (GRPO) adalah metode pembelajaran penguatan untuk menyempurnakan model bahasa yang menilai setiap jawaban berdasarkan sekelompok jawaban saudara terhadap perintah yang sama, menghilangkan jaringan nilai terpisah yang digunakan oleh PPO. Ini menjadi terkenal sebagai trik pelatihan inti di balik model penalaran DeepSeek. Pengoptimalan Kebijakan Relatif Grup adalah komponen teknis yang memengaruhi kualitas model, biaya infrastruktur, latensi, dan keandalan dalam skala besar. Untuk membangun pemahaman yang mendalam, perlakukan Pengoptimalan Kebijakan Relatif Grup sebagai model operasi, bukan fitur tunggal: tentukan hasil yang diinginkan, klarifikasi asumsi, dan pisahkan apa yang dapat dilakukan sistem dengan andal dari apa yang masih memerlukan pertimbangan ahli.

Dalam praktiknya, tim yang kuat menggunakan Group Relative Policy Optimization mengoptimalkan pilihan arsitektur, data, dan infrastruktur dibandingkan keandalan dan biaya. Mereka mendokumentasikan kriteria keberhasilan yang eksplisit, menguji berdasarkan data dan alur kerja yang realistis, dan melakukan iterasi berdasarkan pola kegagalan yang diamati, bukan berdasarkan kemenangan tolok ukur yang hanya terjadi satu kali. Di sinilah pemahaman teoritis berubah menjadi kemampuan yang tahan lama di seluruh produk, kebijakan, dan operasi.

Keputusan arsitektur mendorong kinerja dan biaya pengoperasian selama bertahun-tahun. Pada saat yang sama, Mengoptimalkan satu tolok ukur dapat menyembunyikan kelemahan sistem yang lebih luas. Pendekatan yang paling tangguh adalah menggabungkan kecepatan eksperimen dengan disiplin tata kelola: menjalankan uji coba, menangkap bukti, menerbitkan catatan keputusan, dan terus memperbarui upaya perlindungan seiring dengan berkembangnya perilaku model, harapan pengguna, dan persyaratan peraturan.

Dampak Strategis

Keputusan arsitektur mendorong kinerja dan biaya pengoperasian selama bertahun-tahun.

Keputusan arsitektur mendorong kinerja dan biaya pengoperasian selama bertahun-tahun. Dalam penerapan berkualitas tinggi, hal ini diterjemahkan ke dalam aturan operasi yang terukur, batasan kepemilikan, dan ritual peninjauan berulang sehingga tim dapat meningkatkan kepercayaan diri alih-alih menskalakan ambiguitas.

Pendidikan teknis membantu tim memilih tumpukan yang tepat, bukan hanya yang terbaru.

Pendidikan teknis membantu tim memilih tumpukan yang tepat, bukan hanya yang terbaru. Dalam penerapan berkualitas tinggi, hal ini diterjemahkan ke dalam aturan operasi yang terukur, batasan kepemilikan, dan ritual peninjauan berulang sehingga tim dapat meningkatkan kepercayaan diri alih-alih menskalakan ambiguitas.

Pilihan teknik yang lebih baik mengurangi insiden keandalan dalam produksi.

Pilihan teknik yang lebih baik mengurangi insiden keandalan dalam produksi. Dalam penerapan berkualitas tinggi, hal ini diterjemahkan ke dalam aturan operasi yang terukur, batasan kepemilikan, dan ritual peninjauan berulang sehingga tim dapat meningkatkan kepercayaan diri alih-alih menskalakan ambiguitas.

Masa Depan Optimalisasi Kebijakan Relatif Grup

GRPO dengan cepat menjadi resep standar untuk melatih model penalaran terbuka, dan laboratorium terus mengulangi titik lemahnya. Para peneliti sedang menjajaki perbaikan untuk bias panjang dan kesulitan (seperti Dr. GRPO), normalisasi tingkat token daripada tingkat urutan, dan menghilangkan atau membentuk kembali istilah KL. Harapkan integrasi yang lebih erat dengan imbalan yang dapat diverifikasi (matematika, kode, penggunaan alat), penanganan sinyal jarang yang lebih baik, dan hibrida yang menggabungkan garis dasar grup dengan kritik ringan untuk tugas-tugas yang bersifat agen dan multi-langkah.

Implementasi Dunia Nyata

Melatih DeepSeek-R1 dan DeepSeekMath untuk menghasilkan penalaran rantai pemikiran yang panjang menggunakan penghargaan kebenaran berbasis aturan pada soal matematika

Menyempurnakan model pembuatan kode di mana setiap solusi sampel diberi skor berdasarkan apakah solusi tersebut lulus pengujian unit, dan grup dinormalisasi untuk memilih pemenang

Pipeline RLHF sumber terbuka (misalnya, di perpustakaan TRL dan verl) menggunakan GRPO untuk menyelaraskan model obrolan tanpa membayar jaringan nilai terpisah

Meningkatkan kepatuhan terhadap instruksi atau perilaku keselamatan dengan mengambil contoh beberapa respons per perintah dan memberikan penghargaan kepada respons yang diberikan model penghargaan dengan nilai tertinggi dibandingkan rekan-rekan mereka

Pola Implementasi

Optimalisasi Kebijakan Relatif Grup dalam praktiknya

Melatih DeepSeek-R1 dan DeepSeekMath untuk menghasilkan penalaran rantai pemikiran yang panjang menggunakan penghargaan kebenaran berbasis aturan pada soal matematika.

Melatih DeepSeek-R1 dan DeepSeekMath untuk menghasilkan penalaran rantai pemikiran yang panjang menggunakan penghargaan kebenaran berbasis aturan pada soal matematika Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, menjaga jalur eskalasi manusia untuk kasus-kasus edge, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Optimalisasi Kebijakan Relatif Grup dalam praktiknya

Menyempurnakan model pembuatan kode di mana setiap solusi sampel diberi skor berdasarkan apakah solusi tersebut lulus pengujian unit, dan grup dinormalisasi untuk memilih pemenang.

Menyempurnakan model pembuatan kode di mana setiap solusi yang dijadikan sampel dinilai berdasarkan apakah solusi tersebut lulus pengujian unit, dan grup dinormalisasi untuk memilih pemenang. Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, menjaga jalur eskalasi manusia untuk kasus-kasus edge, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Optimalisasi Kebijakan Relatif Grup dalam praktiknya

Pipeline RLHF sumber terbuka (misalnya, di perpustakaan TRL dan verl) menggunakan GRPO untuk menyelaraskan model obrolan tanpa membayar jaringan nilai terpisah.

Pipeline RLHF sumber terbuka (misalnya, di perpustakaan TRL dan verl) menggunakan GRPO untuk menyelaraskan model obrolan tanpa membayar jaringan nilai terpisah. Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, menjaga jalur eskalasi manusia untuk kasus-kasus edge, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Optimalisasi Kebijakan Relatif Grup dalam praktiknya

Meningkatkan perilaku mengikuti instruksi atau keselamatan dengan mengambil sampel beberapa respons per prompt dan memberi penghargaan kepada model penghargaan yang memiliki nilai tertinggi dibandingkan rekan-rekan mereka.

Meningkatkan kepatuhan terhadap instruksi atau perilaku keselamatan dengan mengambil sampel beberapa respons per prompt dan memberikan penghargaan kepada respons yang diberi nilai tertinggi dibandingkan rekan-rekan mereka. Tim biasanya mendapatkan hasil yang lebih baik ketika mereka menentukan ambang batas kualitas di awal, menjaga jalur eskalasi manusia untuk kasus-kasus ekstrem, dan melacak peningkatan produktivitas dan biaya kesalahan dari waktu ke waktu.

Risiko & Pagar Pembatas

!

Mengoptimalkan satu tolok ukur dapat menyembunyikan kelemahan sistem yang lebih luas.

!

Biaya infrastruktur dan pemeliharaan sering kali diremehkan.

!

Kesenjangan keamanan dan kemampuan observasi dapat tumbuh seiring dengan semakin kompleksnya sistem.

Peta Jalan Implementasi

1

Tentukan target latensi, kualitas, dan biaya sebelum penerapan.

Tentukan target latensi, kualitas, dan biaya sebelum penerapan. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

2

Tolok ukur dalam kondisi beban dan data yang realistis.

Tolok ukur dalam kondisi beban dan data yang realistis. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

3

Pemantauan instrumen untuk kesalahan, penyimpangan, dan dampak pengguna.

Pemantauan instrumen untuk kesalahan, penyimpangan, dan dampak pengguna. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

4

Siapkan jalur rollback dan respons insiden sebelum melakukan penskalaan.

Siapkan jalur rollback dan respons insiden sebelum melakukan penskalaan. Perlakukan setiap langkah sebagai gerbang bukti: jika kriteria tidak terpenuhi, jeda peluncuran, tutup kesenjangan, dan baru kemudian perluas penggunaan.

Terus Menjelajah