نظرة عامة
كان BigScience عبارة عن تعاون بحثي مفتوح لمدة عام لأكثر من 1000 باحث أنتج BLOOM، وهو واحد من أول نماذج اللغات الكبيرة متعددة اللغات والتي تم إصدارها بشكل مفتوح. إنه أمر مهم باعتباره علامة بارزة في مجال الذكاء الاصطناعي الشفاف والموجه من المجتمع والمبني خارج شركات التكنولوجيا الكبرى.
من الأفضل فهم BigScience ونموذج BLOOM في سياق الإستراتيجية والوصول إلى النموذج وقرارات النظام الأساسي وشراكات النظام البيئي.
الغوص العميق
BigScience عبارة عن ورشة عمل بحثية مدتها عام واحد تمتد من 2021 إلى 2022، بتنسيق من Hugging Face وتجمع أكثر من 1000 باحث متطوع من أكثر من 60 دولة و250 مؤسسة. كان ناتجها الرئيسي، الذي تم إصداره في يوليو 2022، هو BLOOM، وهو نموذج لغة انحدار ذاتي مكون من 176 مليار معلمة. كان BLOOM متعدد اللغات عمدًا، وتم تدريبه على مجموعة ROOTS التي تغطي 46 لغة طبيعية و13 لغة برمجة، مع تمثيل قوي للغات الممثلة تمثيلاً ناقصًا مثل العديد من اللغات الأفريقية وجنوب آسيا. استمر التدريب لعدة أشهر على الكمبيوتر العملاق Jean Zay الممول من القطاع العام في فرنسا باستخدام حوالي 384 وحدة معالجة رسوميات. تم إصدار BLOOM بموجب ترخيص الذكاء الاصطناعي المسؤول مع التوثيق الكامل لبياناته وتدريبه واستخداماته المقصودة، وهو ما يتناقض بشكل حاد مع التطوير المغلق لنماذج قابلة للمقارنة.
البصيرة الفنية
BLOOM هو محول لوحدة فك التشفير فقط بمقياس مماثل لـ GPT-3، يستخدم التضمينات الموضعية لـ ALiBi بدلاً من متجهات الموضع المكتسبة، مما يساعده على استقراء تسلسلات أطول مما شوهد في التدريب. كما أنه يطبق أيضًا تطبيع طبقة التضمين الذي أدى إلى تحسين استقرار التدريب على نطاق واسع. تم تجميع مجموعة ROOTS متعددة اللغات وتوثيقها بعناية، بحيث كان مزيج اللغات ومصادر البيانات شفافًا وقابلاً للتدقيق، وهو خروج متعمد عن مجموعات البيانات غير الشفافة.
إتقان BigScience ونموذج BLOOM
كان BigScience عبارة عن تعاون بحثي مفتوح لمدة عام لأكثر من 1000 باحث أنتج BLOOM، وهو واحد من أول نماذج اللغات الكبيرة متعددة اللغات والتي تم إصدارها بشكل مفتوح. إنه أمر مهم باعتباره علامة بارزة في مجال الذكاء الاصطناعي الشفاف والموجه من المجتمع والمبني خارج شركات التكنولوجيا الكبرى. من الأفضل فهم BigScience ونموذج BLOOM في سياق الإستراتيجية والوصول إلى النموذج وقرارات النظام الأساسي وشراكات النظام البيئي. لبناء فهم عميق، يجب التعامل مع BigScience ونموذج BLOOM كنموذج تشغيلي، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تقوم الفرق القوية التي تستخدم BigScience ونموذج BLOOM بتقييم استراتيجية البائع، وموثوقية خريطة الطريق، ومخاطر التثبيت قبل الالتزام. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
تؤثر خرائط طريق البائع على الميزات التي يمكن لفريقك إنشاءها بعد ذلك. وفي الوقت نفسه، قد تتجاوز إعلانات الإطلاق الاستقرار في سير عمل الإنتاج الحقيقي. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
تؤثر خرائط طريق البائع على الميزات التي يمكن لفريقك إنشاءها بعد ذلك.
تؤثر خرائط طريق البائع على الميزات التي يمكن لفريقك إنشاءها بعد ذلك. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
تؤثر الشروط التجارية وخيارات النشر على التكلفة والمخاطر على المدى الطويل.
تؤثر الشروط التجارية وخيارات النشر على التكلفة والمخاطر على المدى الطويل. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
تعمل حوافز الشركة على تشكيل الإعدادات الافتراضية للمنتج، ووضعية السلامة، والانفتاح.
تعمل حوافز الشركة على تشكيل الإعدادات الافتراضية للمنتج، ووضعية السلامة، والانفتاح. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
إنشاء واستكمال النص عبر عشرات اللغات، بما في ذلك اللغات التي لا تخدمها النماذج التجارية
بمثابة خط أساس بحثي مفتوح لدراسة التحيز والنقل متعدد اللغات وسلوك التوسع
الضبط الدقيق للمتغيرات الخاصة بالمهمة أو التي تتبع التعليمات مثل BLOOMZ للمجتمعات غير الإنجليزية
توفير نموذج موثق بالكامل للأكاديميين الذين يدرسون مصدر بيانات التدريب والترخيص المسؤول للذكاء الاصطناعي
أنماط التنفيذ
BigScience ونموذج BLOOM في الممارسة العملية
إنشاء واستكمال النص عبر عشرات اللغات، بما في ذلك اللغات التي لا تخدمها النماذج التجارية.
إنشاء واستكمال النص عبر عشرات اللغات، بما في ذلك اللغات التي لا تخدمها النماذج التجارية عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
BigScience ونموذج BLOOM في الممارسة العملية
بمثابة خط أساس بحثي مفتوح لدراسة التحيز والنقل متعدد اللغات وسلوك التوسع.
العمل كخط أساس بحثي مفتوح لدراسة التحيز والنقل متعدد اللغات وتوسيع نطاق السلوك، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
BigScience ونموذج BLOOM في الممارسة العملية
الضبط الدقيق للمتغيرات الخاصة بالمهمة أو التي تتبع التعليمات مثل BLOOMZ للمجتمعات غير الإنجليزية.
الضبط الدقيق للمتغيرات الخاصة بمهمة محددة أو المتغيرات التي تتبع التعليمات مثل BLOOMZ للمجتمعات غير الإنجليزية عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
BigScience ونموذج BLOOM في الممارسة العملية
توفير نموذج موثق بالكامل للأكاديميين الذين يدرسون مصدر بيانات التدريب والترخيص المسؤول للذكاء الاصطناعي.
توفير نموذج موثق بالكامل للأكاديميين الذين يدرسون مصدر بيانات التدريب وترخيص الذكاء الاصطناعي المسؤول، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
قد تتجاوز إعلانات الإطلاق الاستقرار في سير عمل الإنتاج الحقيقي.
يمكن أن يؤدي تسعير واجهة برمجة التطبيقات (API) أو تغيرات السياسة إلى كسر الافتراضات بين عشية وضحاها.
يؤدي الاعتماد على بائع واحد إلى زيادة تكاليف الحجز والترحيل.
خارطة طريق التنفيذ
قم بتقييم مقدمي الخدمة باستخدام المهام ومجموعات البيانات الخاصة بك.
قم بتقييم مقدمي الخدمة باستخدام المهام ومجموعات البيانات الخاصة بك. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
راجع الخصوصية والأمان والمصطلحات القانونية قبل التكامل.
راجع الخصوصية والأمان والمصطلحات القانونية قبل التكامل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
احتفظ بخطة احتياطية عبر النماذج أو البائعين.
احتفظ بخطة احتياطية عبر النماذج أو البائعين. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
راقب ملاحظات الإصدار حتى لا تفاجئ التغييرات في خارطة الطريق الفرق.
راقب ملاحظات الإصدار حتى لا تفاجئ التغييرات في خارطة الطريق الفرق. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.