دليل الصوت AI

MusicGen

MusicGen هو نموذج الذكاء الاصطناعي الخاص بـ Meta والذي يقوم بإنشاء الموسيقى من وصف نصي، واختياريًا من اللحن الذي تدندن به أو تحمّله.

نظرة عامة

MusicGen هو نموذج الذكاء الاصطناعي الخاص بـ Meta والذي يقوم بإنشاء الموسيقى من وصف نصي، واختياريًا من اللحن الذي تدندن به أو تحمّله. إنه أمر مهم لأنه يضع إنشاء موسيقى عالية الجودة ويمكن التحكم فيها في نموذج واحد مفتوح المصدر يمكن للهواة والباحثين تشغيله فعليًا.

يقع MusicGen في مسارات عمل الصوت والذكاء الاصطناعي التي تعمل على تحويل الكلام والموسيقى والصوت للتواصل وإمكانية الوصول وإنتاج الوسائط.

الغوص العميق

تم إصدار MusicGen بواسطة Meta AI في عام 2023 كجزء من مشروع AudioCraft، وهو يحول المطالبات مثل "مسار موسيقى البوب ​​​​المتفائل من الثمانينيات مع خط جهير قوي" إلى مقاطع موسيقية مدتها 12 ثانية تقريبًا (قابلة للتمديد). على عكس الأنظمة متعددة المراحل، يستخدم MusicGen نموذج لغة محول واحد يتنبأ بالرموز الصوتية التي ينتجها برنامج الترميز العصبي EnCodec الخاص بـ Meta. مساهمتها الذكية هي نمط تشذير الرمز المميز (يُسمى تشذير التأخير) الذي يسمح لنموذج واحد بالتعامل مع تدفقات الرموز المتوازية المتعددة الخاصة بـ EnCodec بكفاءة، مع تجنب سلسلة النماذج المنفصلة المطلوبة في الأساليب السابقة. يمكن توجيه MusicGen بطريقتين في وقت واحد: من خلال وصف نصي ومن خلال لحن مرجعي، حتى تتمكن من طلب "نسخة موسيقى الجاز" من اللحن الذي تدندنه. أصدرت Meta الكود والأوزان علنًا، مما أدى إلى تغذية موجة من أدوات وتجارب المجتمع.

البصيرة الفنية

يمثل MusicGen الصوت كتدفقات متوازية من الرموز المنفصلة من برنامج ترميز EnCodec، حيث يلتقط كل تيار تفاصيل مختلفة. بدلاً من نمذجة التدفقات باستخدام نماذج منفصلة، ​​يقوم MusicGen بتشذيرها بتأخيرات متحكم فيها بحيث يتنبأ بها محول انحدار ذاتي واحد في مسار واحد. يأتي تكييف النص من برنامج تشفير النص T5، بينما يستخدم تكييف اللحن الاختياري مخططًا لونيًا (ملف تعريف درجة الصوت) بحيث يتبع النموذج اللحن دون نسخ تسجيله الدقيق.

إتقان الموسيقى

MusicGen هو نموذج الذكاء الاصطناعي الخاص بـ Meta والذي يقوم بإنشاء الموسيقى من وصف نصي، واختياريًا من اللحن الذي تدندن به أو تحمّله. إنه أمر مهم لأنه يضع إنشاء موسيقى عالية الجودة ويمكن التحكم فيها في نموذج واحد مفتوح المصدر يمكن للهواة والباحثين تشغيله فعليًا. يقع MusicGen في مسارات عمل الصوت والذكاء الاصطناعي التي تعمل على تحويل الكلام والموسيقى والصوت للتواصل وإمكانية الوصول وإنتاج الوسائط. لبناء فهم عميق، يجب التعامل مع MusicGen كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرجوة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تتعامل الفرق القوية التي تستخدم MusicGen مع الجودة ووقت الاستجابة والموافقة باعتبارها أجزاء لا تقل أهمية في استراتيجية النشر. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يعمل على تحسين إمكانية الوصول من خلال واجهات النسخ والسرد والصوت. وفي الوقت نفسه، تزداد مخاطر إساءة استخدام الصوت وانتحال الهوية عند فقدان الموافقة. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يعمل على تحسين إمكانية الوصول من خلال واجهات النسخ والسرد والصوت.

يعمل على تحسين إمكانية الوصول من خلال واجهات النسخ والسرد والصوت. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق الإعلامية شحن الصوت المصقول بشكل أسرع بميزانيات أصغر.

يمكن للفرق الإعلامية شحن الصوت المصقول بشكل أسرع بميزانيات أصغر. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للأنظمة التي تواجه العملاء معالجة التفاعلات المنطوقة على نطاق أوسع.

يمكن للأنظمة التي تواجه العملاء معالجة التفاعلات المنطوقة على نطاق أوسع. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل MusicGen

وضع الإصدار المفتوح لـ MusicGen خطًا أساسيًا يهدف اللاحقون إلى التغلب عليه من خلال إخراج استريو أطول وأكثر دقة، بالإضافة إلى تحكم أكثر دقة في البنية والآلات الموسيقية وأقسام الأغنية. توقع تكاملًا أكثر إحكامًا في برامج إنتاج الموسيقى، والتوليد التفاعلي في الوقت الفعلي، وأدوات أفضل لتحرير المسارات الموجودة أو توسيعها. كما هو الحال مع جميع الموسيقى المنتجة، فإنها تزيد من حدة الأسئلة حول حقوق الطبع والنشر لبيانات التدريب، وتعويض الفنان، وكيفية تصنيف الأغاني التي تم إنشاؤها بواسطة الذكاء الاصطناعي في سوق غارق.

التنفيذ في العالم الحقيقي

إنشاء موسيقى خلفية خالية من حقوق الملكية لمقطع فيديو على YouTube من خلال مطالبة نصية

دندن اللحن واطلب من MusicGen ترتيبًا أوركستراليًا كاملاً له

يقوم مطورو الألعاب بتصميم نماذج أولية للموسيقى التصويرية على مستوى الأنواع المختلفة بسرعة

يقوم الباحثون والهواة بتشغيل الأوزان مفتوحة المصدر لتجربة تحويل النص إلى موسيقى

أنماط التنفيذ

MusicGen في الممارسة العملية

إنشاء موسيقى خلفية خالية من حقوق الملكية لمقطع فيديو على YouTube من خلال مطالبة نصية.

إنشاء موسيقى خلفية خالية من حقوق الملكية لمقطع فيديو YouTube من مطالبة نصية عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

MusicGen في الممارسة العملية

دندن اللحن واطلب من MusicGen ترتيبًا أوركستراليًا كاملاً له.

دندنة لحن ومطالبة MusicGen بترتيب أوركسترالي كامل له عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

MusicGen في الممارسة العملية

يقوم مطورو الألعاب بتصميم نماذج أولية للموسيقى التصويرية على مستوى الأنواع المختلفة بسرعة.

يقوم مطورو الألعاب بإعداد نماذج أولية للموسيقى التصويرية في أنواع مختلفة بسرعة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

MusicGen في الممارسة العملية

يقوم الباحثون والهواة بتشغيل الأوزان مفتوحة المصدر لتجربة تحويل النص إلى موسيقى.

عادة ما يحصل الباحثون والهواة الذين يديرون الأوزان مفتوحة المصدر لتجربة تحويل النص إلى موسيقى على نتائج أفضل عندما يحددون حدود الجودة مقدمًا، ويحتفظون بمسار تصعيد بشري لحالات الحافة، ويتتبعون مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

تزداد مخاطر إساءة استخدام الصوت وانتحال الشخصية عند فقدان الموافقة.

!

يمكن أن تنخفض الدقة عبر اللهجات أو اللهجات أو البيئات الصاخبة.

!

يمكن الخلط بين الصوت الاصطناعي والكلام الأصيل دون تصنيف واضح.

خارطة طريق التنفيذ

1

الحصول على موافقة صريحة لالتقاط الصوت واستنساخه وإعادة استخدامه.

الحصول على موافقة صريحة لالتقاط الصوت واستنساخه وإعادة استخدامه. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

اختبار الجودة عبر مكبرات الصوت المتنوعة وظروف الخلفية.

اختبار الجودة عبر مكبرات الصوت المتنوعة وظروف الخلفية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

تحديد متى يجب على الإنسان مراجعة المخرجات أو الموافقة عليها.

تحديد متى يجب على الإنسان مراجعة المخرجات أو الموافقة عليها. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بتسمية الصوت الاصطناعي واحتفظ بسجلات المصدر للمساءلة.

قم بتسمية الصوت الاصطناعي واحتفظ بسجلات المصدر للمساءلة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف