Gambaran keseluruhan
Jukebox ialah rangkaian neural OpenAI 2020 yang menjana audio muzik mentah — lengkap dengan suara nyanyian, instrumen dan juga lirik dalam gaya artis tertentu. Ia adalah bukti penting bahawa AI boleh memodelkan bentuk gelombang sebenar muzik panjang lagu, bukan hanya nota.
Jukebox terdapat dalam aliran kerja audio-AI yang mengubah pertuturan, muzik dan bunyi untuk komunikasi, kebolehcapaian dan pengeluaran media.
Menyelam dalam
Dikeluarkan oleh OpenAI pada April 2020, Jukebox menjana muzik sebagai audio mentah dan bukannya nota simbolik, bermakna ia menghasilkan bunyi sebenar termasuk vokal. Ia dilatih mengenai kira-kira 1.2 juta lagu (kira-kira separuh bahasa Inggeris) yang dikikis daripada web, dipasangkan dengan lirik dan metadata daripada LyricWiki. Anda boleh menetapkannya pada genre, gaya artis dan lirik, dan ia akan menyanyi dengan jelas (jika samar-samar) seperti artis itu. Output berjalan selama beberapa minit. Tangkapan adalah kepantasan dan kesetiaan: penjanaan adalah sangat perlahan, mengambil masa kira-kira sembilan jam untuk menghasilkan satu minit audio, dan hasilnya mempunyai kualiti yang bising dan bising. Jukebox adalah penyelidikan, bukan produk yang digilap, tetapi ia membentuk semula jangkaan untuk apa yang mungkin.
Wawasan Teknikal
Jukebox memampatkan audio mentah menggunakan pengekod automatik VQ-VAE pada resolusi tiga kali, menukar bentuk gelombang panjang kepada urutan kod diskret yang lebih pendek. Autoregressive Transformers kemudian meramalkan kod ini satu demi satu, berkondisi pada artis, genre dan lirik, dan upsampler menambah perincian frekuensi tinggi. Penyahkodan kod peringkat bawah kembali kepada bentuk gelombang 44.1 kHz adalah yang menjadikan penjanaan begitu perlahan, kerana berjuta-juta sampel audio mesti dihasilkan secara berurutan.
Menguasai Jukebox
Jukebox ialah rangkaian neural OpenAI 2020 yang menjana audio muzik mentah — lengkap dengan suara nyanyian, instrumen dan juga lirik dalam gaya artis tertentu. Ia adalah bukti penting bahawa AI boleh memodelkan bentuk gelombang sebenar muzik panjang lagu, bukan hanya nota. Jukebox terdapat dalam aliran kerja audio-AI yang mengubah pertuturan, muzik dan bunyi untuk komunikasi, kebolehcapaian dan pengeluaran media. Untuk membina pemahaman yang mendalam, layan Jukebox sebagai model pengendalian, bukan satu ciri: tentukan hasil yang diingini, jelaskan andaian dan pisahkan perkara yang boleh dilakukan oleh sistem dengan pasti daripada perkara yang masih memerlukan pertimbangan pakar.
Dalam amalan, pasukan kuat yang menggunakan Jukebox menganggap kualiti, kependaman dan persetujuan sebagai bahagian yang sama penting dalam strategi penggunaan. Mereka mendokumentasikan kriteria kejayaan yang jelas, menguji terhadap data dan aliran kerja yang realistik, dan mengulang berdasarkan corak kegagalan yang diperhatikan dan bukannya kemenangan penanda aras sekali. Di sinilah pemahaman teori bertukar menjadi keupayaan tahan lama merentas produk, dasar dan operasi.
Ia meningkatkan kebolehcapaian melalui transkripsi, narasi dan antara muka suara. Pada masa yang sama, risiko penyalahgunaan suara dan penyamaran meningkat apabila tiada kebenaran. Pendekatan yang paling berdaya tahan adalah untuk menggabungkan kelajuan percubaan dengan disiplin tadbir urus: menjalankan juruterbang, menangkap bukti, menerbitkan log keputusan dan sentiasa mengemas kini perlindungan apabila tingkah laku model, jangkaan pengguna dan keperluan kawal selia berkembang.
Kesan Strategik
Ia meningkatkan kebolehcapaian melalui transkripsi, narasi dan antara muka suara.
Ia meningkatkan kebolehcapaian melalui transkripsi, narasi dan antara muka suara. Dalam penempatan berkualiti tinggi, ini diterjemahkan kepada peraturan operasi yang boleh diukur, sempadan pemilikan dan ritual semakan berulang supaya pasukan dapat mengukur keyakinan dan bukannya menskalakan kekaburan.
Pasukan media boleh menghantar audio yang digilap dengan lebih pantas dengan belanjawan yang lebih kecil.
Pasukan media boleh menghantar audio yang digilap dengan lebih pantas dengan belanjawan yang lebih kecil. Dalam penempatan berkualiti tinggi, ini diterjemahkan kepada peraturan operasi yang boleh diukur, sempadan pemilikan dan ritual semakan berulang supaya pasukan dapat mengukur keyakinan dan bukannya menskalakan kekaburan.
Sistem yang menghadapi pelanggan boleh memproses interaksi pertuturan pada skala yang lebih besar.
Sistem yang menghadapi pelanggan boleh memproses interaksi pertuturan pada skala yang lebih besar. Dalam penempatan berkualiti tinggi, ini diterjemahkan kepada peraturan operasi yang boleh diukur, sempadan pemilikan dan ritual semakan berulang supaya pasukan dapat mengukur keyakinan dan bukannya menskalakan kekaburan.
Pelaksanaan Dunia Sebenar
Penyelidik mengkaji bagaimana rangkaian saraf boleh memodelkan audio mentah dan suara nyanyian dalam bentuk panjang, menggunakan Jukebox sebagai seni bina rujukan.
Pemuzik dan penghobi menghasilkan 'liputan AI' yang menakutkan dan lo-fi yang menyanyikan lirik baharu dalam gaya kasar artis pilihan.
Pendidik menunjukkan lonjakan daripada penjanaan nota gaya MIDI kepada sintesis audio mentah penuh dengan vokal.
Pereka bentuk bunyi dan artis eksperimen menuai tekstur kabur Jukebox, seperti mimpi sebagai bahan mentah untuk pengadunan semula dan kolaj.
Corak Pelaksanaan
Jukebox dalam latihan
Penyelidik mengkaji bagaimana rangkaian saraf boleh memodelkan audio mentah dan suara nyanyian dalam bentuk panjang, menggunakan Jukebox sebagai seni bina rujukan.
Penyelidik mengkaji cara rangkaian saraf boleh memodelkan audio mentah dan suara nyanyian dalam bentuk panjang, menggunakan Jukebox sebagai seni bina rujukan Pasukan biasanya mendapat hasil yang lebih baik apabila mereka menentukan ambang kualiti di hadapan, mengekalkan laluan peningkatan manusia untuk kes tepi dan menjejaki kedua-dua keuntungan produktiviti dan kos ralat dari semasa ke semasa.
Jukebox dalam latihan
Pemuzik dan penghobi menghasilkan 'liputan AI' yang menakutkan dan lo-fi yang menyanyikan lirik baharu dalam gaya kasar artis pilihan.
Pemuzik dan penggemar yang menjana 'liputan AI' yang menakutkan dan lo-fi yang menyanyikan lirik baharu dalam gaya kasar artis terpilih.
Jukebox dalam latihan
Pendidik menunjukkan lonjakan daripada penjanaan nota gaya MIDI kepada sintesis audio mentah penuh dengan vokal.
Pendidik menunjukkan lonjakan daripada penjanaan nota gaya MIDI kepada sintesis audio mentah penuh dengan vokal Pasukan biasanya mendapat hasil yang lebih baik apabila mereka menentukan ambang kualiti di hadapan, mengekalkan laluan peningkatan manusia untuk kes tepi dan menjejaki kedua-dua keuntungan produktiviti dan kos ralat dari semasa ke semasa.
Jukebox dalam latihan
Pereka bentuk bunyi dan artis eksperimen menuai tekstur kabur Jukebox, seperti mimpi sebagai bahan mentah untuk pengadunan semula dan kolaj.
Pereka bentuk bunyi dan artis eksperimen menuai tekstur Jukebox yang kabur dan seperti mimpi sebagai bahan mentah untuk pengadunan semula dan kolaj Pasukan biasanya mendapat hasil yang lebih baik apabila mereka menentukan ambang kualiti di hadapan, mengekalkan laluan peningkatan manusia untuk kes tepi dan menjejaki kedua-dua keuntungan produktiviti dan kos ralat dari semasa ke semasa.
Risiko & Pengawal
Penyalahgunaan suara dan risiko penyamaran meningkat apabila tiada kebenaran.
Ketepatan boleh menurun merentas aksen, dialek atau persekitaran yang bising.
Audio sintetik boleh disalah anggap sebagai pertuturan tulen tanpa pelabelan yang jelas.
Hala Tuju Pelaksanaan
Dapatkan persetujuan yang jelas untuk menangkap suara, pengklonan dan penggunaan semula.
Dapatkan persetujuan yang jelas untuk menangkap suara, pengklonan dan penggunaan semula. Anggap setiap langkah sebagai gerbang bukti: jika kriteria tidak dipenuhi, jeda pelancaran, tutup jurang, dan kemudian kembangkan penggunaan.
Uji kualiti merentas pelbagai pembesar suara dan keadaan latar belakang.
Uji kualiti merentas pelbagai pembesar suara dan keadaan latar belakang. Anggap setiap langkah sebagai gerbang bukti: jika kriteria tidak dipenuhi, jeda pelancaran, tutup jurang, dan kemudian kembangkan penggunaan.
Tentukan bila manusia mesti menyemak atau meluluskan output.
Tentukan bila manusia mesti menyemak atau meluluskan output. Anggap setiap langkah sebagai gerbang bukti: jika kriteria tidak dipenuhi, jeda pelancaran, tutup jurang, dan kemudian kembangkan penggunaan.
Labelkan audio sintetik dan simpan rekod asal untuk kebertanggungjawaban.
Labelkan audio sintetik dan simpan rekod asal untuk kebertanggungjawaban. Anggap setiap langkah sebagai gerbang bukti: jika kriteria tidak dipenuhi, jeda pelancaran, tutup jurang, dan kemudian kembangkan penggunaan.