Gambaran keseluruhan
Chinchilla ialah penemuan DeepMind 2022 bahawa kebanyakan model bahasa besar kurang terlatih: untuk belanjawan pengiraan tetap anda harus menskalakan parameter dan data secara kasar secara sama, bukan hanya membina model yang lebih besar. Ia membentuk semula cara industri mengimbangi saiz model dengan data latihan.
Chinchilla Compute-Optimal Training terletak dalam kit alat AI teras. Apabila anda memahaminya, topik AI lain menjadi lebih mudah untuk dinilai dan dibandingkan.
Menyelam dalam
Kertas Chinchilla DeepMind menyemak semula penskalaan dan melatih lebih 400 model untuk mencari keseimbangan pengiraan yang optimum. Peraturan utama tajuk utama: saiz model dan token latihan harus berkembang mengikut lockstep, kira-kira 20 token latihan setiap parameter. Untuk membuktikannya, mereka melatih Chinchilla, model 70 bilion parameter pada 1.4 trilion token, menggunakan pengiraan yang sama seperti 280 bilion parameter Gopher yang dilatih pada token yang jauh lebih sedikit. Chinchilla, walaupun empat kali lebih kecil, mengatasi Gopher, GPT-3, dan gergasi lain pada hampir setiap penanda aras. Pelajaran itu telah membatalkan kesimpulan awal OpenAI yang mengutamakan saiz berbanding data, menunjukkan banyak model perdana meninggalkan prestasi di atas meja kerana terlalu besar dan terlalu kehabisan data.
Wawasan Teknikal
Kehilangan fit Chinchilla kerana L(N,D) = E + A·N^(-α) + B·D^(-β), dengan α dan β kedua-duanya hampir 0.34, bermakna parameter dan data menyumbang hampir simetri. Mengoptimumkan ini di bawah kekangan pengiraan tetap (kira ≈ 6·N·D untuk transformer) menghasilkan hasil penskalaan yang sama. Model yang lebih kecil dan kaya data juga lebih murah untuk dijalankan pada inferens, jadi kelebihannya digabungkan dalam penggunaan, bukan hanya latihan.
Menguasai Latihan Chinchilla Compute-Optimal
Chinchilla ialah penemuan DeepMind 2022 bahawa kebanyakan model bahasa besar kurang terlatih: untuk belanjawan pengiraan tetap anda harus menskalakan parameter dan data secara kasar secara sama, bukan hanya membina model yang lebih besar. Ia membentuk semula cara industri mengimbangi saiz model dengan data latihan. Chinchilla Compute-Optimal Training terletak dalam kit alat AI teras. Apabila anda memahaminya, topik AI lain menjadi lebih mudah untuk dinilai dan dibandingkan. Untuk membina pemahaman yang mendalam, layan Chinchilla Compute-Optimal Training sebagai model pengendalian, bukan satu ciri: tentukan hasil yang diingini, jelaskan andaian dan pisahkan perkara yang boleh dilakukan oleh sistem dengan pasti daripada perkara yang masih memerlukan pertimbangan pakar.
Dalam praktiknya, pasukan kuat yang menggunakan Latihan Pengiraan-Optimal Chinchilla membina model konseptual yang kukuh terlebih dahulu, kemudian memetakan model tersebut kepada kekangan pengeluaran sebenar. Mereka mendokumentasikan kriteria kejayaan yang jelas, menguji terhadap data dan aliran kerja yang realistik, dan mengulang berdasarkan corak kegagalan yang diperhatikan dan bukannya kemenangan penanda aras sekali. Di sinilah pemahaman teori bertukar menjadi keupayaan tahan lama merentas produk, dasar dan operasi.
Ia membantu anda memisahkan tuntutan teknikal yang jelas daripada bahasa pemasaran. Pada masa yang sama, Pasukan yang berbeza mungkin menggunakan istilah yang sama secara berbeza, jadi tentukan skop lebih awal. Pendekatan yang paling berdaya tahan adalah untuk menggabungkan kelajuan percubaan dengan disiplin tadbir urus: menjalankan juruterbang, menangkap bukti, menerbitkan log keputusan dan sentiasa mengemas kini perlindungan apabila tingkah laku model, jangkaan pengguna dan keperluan kawal selia berkembang.
Kesan Strategik
Ia membantu anda memisahkan tuntutan teknikal yang jelas daripada bahasa pemasaran.
Ia membantu anda memisahkan tuntutan teknikal yang jelas daripada bahasa pemasaran. Dalam penempatan berkualiti tinggi, ini diterjemahkan kepada peraturan operasi yang boleh diukur, sempadan pemilikan dan ritual semakan berulang supaya pasukan dapat mengukur keyakinan dan bukannya menskalakan kekaburan.
Anda boleh bertanya soalan pelaksanaan yang lebih baik sebelum menghabiskan wang atau masa.
Anda boleh bertanya soalan pelaksanaan yang lebih baik sebelum menghabiskan wang atau masa. Dalam penempatan berkualiti tinggi, ini diterjemahkan kepada peraturan operasi yang boleh diukur, sempadan pemilikan dan ritual semakan berulang supaya pasukan dapat mengukur keyakinan dan bukannya menskalakan kekaburan.
Pasukan yang berkongsi pemahaman membuat keputusan produk, dasar dan pembelajaran yang lebih baik.
Pasukan yang berkongsi pemahaman membuat keputusan produk, dasar dan pembelajaran yang lebih baik. Dalam penempatan berkualiti tinggi, ini diterjemahkan kepada peraturan operasi yang boleh diukur, sempadan pemilikan dan ritual semakan berulang supaya pasukan dapat mengukur keyakinan dan bukannya menskalakan kekaburan.
Pelaksanaan Dunia Sebenar
Memilih untuk melatih model 7 bilion parameter pada 2 trilion token dan bukannya model 30 bilion pada data yang terlalu sedikit untuk belanjawan yang sama.
Menganggarkan bahawa model 10 bilion parameter mahukan kira-kira 200 bilion token untuk mencapai titik manis pengiraan yang optimum.
Mewajarkan model yang digunakan yang lebih kecil untuk mengurangkan kos inferens setiap pertanyaan sambil memadankan kualiti saingan yang lebih besar.
Mengaudit model sedia ada dan membuat kesimpulan bahawa ia kurang terlatih, kemudian merancang latihan yang lebih lama dan bukannya peningkatan parameter.
Corak Pelaksanaan
Chinchilla Compute-Optimal Training dalam amalan
Memilih untuk melatih model 7 bilion parameter pada 2 trilion token dan bukannya model 30 bilion pada data yang terlalu sedikit untuk belanjawan yang sama.
Memilih untuk melatih model 7 bilion parameter pada 2 trilion token dan bukannya model 30 bilion pada data yang terlalu sedikit untuk belanjawan yang sama Pasukan biasanya mendapat hasil yang lebih baik apabila mereka menentukan ambang kualiti di hadapan, mengekalkan laluan peningkatan manusia untuk kes tepi dan menjejaki kedua-dua keuntungan produktiviti dan kos ralat dari semasa ke semasa.
Chinchilla Compute-Optimal Training dalam amalan
Menganggarkan bahawa model 10 bilion parameter mahukan kira-kira 200 bilion token untuk mencapai titik manis pengiraan yang optimum.
Menganggarkan bahawa model 10 bilion parameter mahukan kira-kira 200 bilion token untuk mencapai titik manis pengiraan optimum Pasukan biasanya mendapat hasil yang lebih baik apabila mereka menentukan ambang kualiti di hadapan, mengekalkan laluan peningkatan manusia untuk kes tepi dan menjejaki kedua-dua keuntungan produktiviti dan kos ralat dari semasa ke semasa.
Chinchilla Compute-Optimal Training dalam amalan
Mewajarkan model yang digunakan yang lebih kecil untuk mengurangkan kos inferens setiap pertanyaan sambil memadankan kualiti saingan yang lebih besar.
Mewajarkan model yang digunakan yang lebih kecil untuk mengurangkan kos inferens setiap pertanyaan sambil memadankan kualiti saingan yang lebih besar Pasukan biasanya mendapat hasil yang lebih baik apabila mereka menentukan ambang kualiti di hadapan, mengekalkan laluan peningkatan manusia untuk kes kelebihan dan menjejaki kedua-dua keuntungan produktiviti dan kos ralat dari semasa ke semasa.
Chinchilla Compute-Optimal Training dalam amalan
Mengaudit model sedia ada dan membuat kesimpulan bahawa ia kurang terlatih, kemudian merancang latihan yang lebih lama dan bukannya peningkatan parameter.
Mengaudit model sedia ada dan membuat kesimpulan bahawa model itu kurang latihan, kemudian merancang latihan yang lebih lama dan bukannya peningkatan parameter Pasukan biasanya mendapat hasil yang lebih baik apabila mereka mentakrifkan ambang kualiti di hadapan, mengekalkan laluan peningkatan manusia untuk kes kelebihan dan menjejaki kedua-dua keuntungan produktiviti dan kos ralat dari semasa ke semasa.
Risiko & Pengawal
Pasukan yang berbeza mungkin menggunakan istilah yang sama secara berbeza, jadi tentukan skop lebih awal.
Penanda aras boleh kelihatan kukuh manakala prestasi dunia sebenar tidak sekata.
Mengabaikan kualiti data dan rancangan penilaian sering menghasilkan hasil yang rapuh.
Hala Tuju Pelaksanaan
Mulakan dengan definisi bahasa biasa hasil yang anda perlukan.
Mulakan dengan definisi bahasa biasa hasil yang anda perlukan. Anggap setiap langkah sebagai gerbang bukti: jika kriteria tidak dipenuhi, jeda pelancaran, tutup jurang, dan kemudian kembangkan penggunaan.
Pilih satu metrik kejayaan dan satu keadaan kegagalan sebelum ujian.
Pilih satu metrik kejayaan dan satu keadaan kegagalan sebelum ujian. Anggap setiap langkah sebagai gerbang bukti: jika kriteria tidak dipenuhi, jeda pelancaran, tutup jurang, dan kemudian kembangkan penggunaan.
Jalankan juruterbang kecil dengan data perwakilan, bukan set demo yang digilap.
Jalankan juruterbang kecil dengan data perwakilan, bukan set demo yang digilap. Anggap setiap langkah sebagai gerbang bukti: jika kriteria tidak dipenuhi, jeda pelancaran, tutup jurang, dan kemudian kembangkan penggunaan.
Dokumen di mana Chinchilla Compute-Optimal Training membantu dan kaedah yang lebih mudah adalah lebih baik.
Dokumen di mana Chinchilla Compute-Optimal Training membantu dan kaedah yang lebih mudah adalah lebih baik. Anggap setiap langkah sebagai gerbang bukti: jika kriteria tidak dipenuhi, jeda pelancaran, tutup jurang, dan kemudian kembangkan penggunaan.