نظرة عامة
خدعة موفرة للذاكرة تعمل على مسك الدفاتر الثقيلة للتدريب (حالات المُحسِّن، والتدرجات، وأحيانًا الأوزان) في ذاكرة الوصول العشوائي لوحدة المعالجة المركزية (CPU) أو على محركات أقراص NVMe SSD بدلاً من ذاكرة GPU النادرة. فهو يتيح للأشخاص تدريب نماذج أكبر بكثير مما تسمح به ذاكرة وحدة معالجة الرسومات الخاصة بهم.
يُعد تفريغ حالة المُحسِّن إلى وحدة المعالجة المركزية (CPU) وNVMe بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.
الغوص العميق
عندما تقوم بتدريب شبكة عصبية باستخدام مُحسِّن مثل آدم، فإن كل معلمة تحمل أمتعة إضافية: إحصائيات تشغيل (الزخم والتباين)، بالإضافة إلى نسخة كاملة الدقة من الوزن، بالإضافة إلى تدرجه. في التدريب المختلط الدقة، يمكن أن يصل إجمالي هذا إلى 16 بايت تقريبًا لكل معلمة، مما يؤدي إلى تقزيم 2 بايت للوزن نفسه. يؤدي التفريغ إلى نقل تلك الأمتعة من وحدة معالجة الرسومات. يعمل إلغاء تحميل وحدة المعالجة المركزية على تدفق حالات المُحسِّن إلى ذاكرة الوصول العشوائي (RAM) العادية للنظام عبر ناقل PCIe، بينما يدفعها إلغاء تحميل NVMe إلى أقراص الحالة الصلبة السريعة. هذه التقنية، التي اشتهرت بواسطة ZeRO-Infinity وZeRO-Offload من DeepSpeed، تستبدل السرعة الأولية بالسعة، مما يسمح لوحدة معالجة رسومات واحدة أو مجموعة صغيرة بضبط النماذج باستخدام مليارات المعلمات.
البصيرة الفنية
المفتاح هو تداخل حركة البيانات مع الحساب. توجد حالات المُحسِّن في وحدة المعالجة المركزية/NVMe؛ أثناء التمرير للخلف، يتم جلب الأقسام مسبقًا عبر PCIe قبل الحاجة إليها مباشرةً، وغالبًا ما يتم تشغيل خطوة المحسن نفسها على وحدة المعالجة المركزية. يحافظ ZeRO-Offload على أوزان float32 الرئيسية ولحظات Adam على وحدة المعالجة المركزية، لذلك تبقى العمليات الحسابية الأمامية والخلفية فقط على وحدة معالجة الرسومات. يضيف NVMe ذاكرة تخزين مؤقت متدرجة بحيث تنتقل حالات مقياس التيرابايت إلى القرص بينما تظل الأقسام الساخنة في ذاكرة الوصول العشوائي.
إتقان تفريغ حالة المُحسِّن إلى وحدة المعالجة المركزية (CPU) وNVMe
خدعة موفرة للذاكرة تعمل على مسك الدفاتر الثقيلة للتدريب (حالات المُحسِّن، والتدرجات، وأحيانًا الأوزان) في ذاكرة الوصول العشوائي لوحدة المعالجة المركزية (CPU) أو على محركات أقراص NVMe SSD بدلاً من ذاكرة GPU النادرة. فهو يتيح للأشخاص تدريب نماذج أكبر بكثير مما تسمح به ذاكرة وحدة معالجة الرسومات الخاصة بهم. يُعد تفريغ حالة المُحسِّن إلى وحدة المعالجة المركزية (CPU) وNVMe بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، تعامل مع Optimizer State Offloading إلى وحدة المعالجة المركزية (CPU) وNVMe كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تعمل الفرق القوية التي تستخدم Optimizer State Offloading إلى وحدة المعالجة المركزية وNVMe على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.
يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.
تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
ضبط LLM ذو 13 مليار معلمة على وحدة معالجة رسومات استهلاكية واحدة بسعة 24 جيجابايت باستخدام DeepSpeed ZeRO-Offload لدفع حالات Adam إلى ذاكرة الوصول العشوائي لوحدة المعالجة المركزية.
يقوم مختبر أبحاث صغير بتدريب نموذج متعدد المليارات من المعلمات على عدد قليل من وحدات معالجة الرسومات عن طريق نقل حالات المحسن إلى محركات أقراص NVMe باستخدام ZeRO-Infinity.
Hugging Face تسريع التكوينات التي تتيح إلغاء تحميل وحدة المعالجة المركزية (CPU) حتى يتمكن المستخدمون من تشغيل مهام الضبط الدقيق الكاملة التي قد تؤدي إلى حدوث أخطاء خارج الذاكرة.
تقوم الشركات الناشئة التي تهتم بالتكلفة بتأجير وحدات معالجة رسوميات سحابية أرخص وذات ذاكرة أقل وتفريغها إلى NVMe المرفقة بدلاً من الدفع مقابل بطاقات من الدرجة الأولى بسعة 80 جيجابايت.
أنماط التنفيذ
تفريغ حالة المُحسِّن إلى وحدة المعالجة المركزية (CPU) وNVMe عمليًا
ضبط LLM ذو 13 مليار معلمة على وحدة معالجة رسومات استهلاكية واحدة بسعة 24 جيجابايت باستخدام DeepSpeed ZeRO-Offload لدفع حالات Adam إلى ذاكرة الوصول العشوائي لوحدة المعالجة المركزية.
الضبط الدقيق لـ 13 مليار معلمة LLM على وحدة معالجة رسومات استهلاكية واحدة بسعة 24 جيجابايت باستخدام DeepSpeed ZeRO-Offload لدفع حالات Adam إلى ذاكرة الوصول العشوائي لوحدة المعالجة المركزية (CPU) تحصل الفرق عادةً على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتبع كل من مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
تفريغ حالة المُحسِّن إلى وحدة المعالجة المركزية (CPU) وNVMe عمليًا
يقوم مختبر أبحاث صغير بتدريب نموذج متعدد المليارات من المعلمات على عدد قليل من وحدات معالجة الرسومات عن طريق نقل حالات المحسن إلى محركات أقراص NVMe باستخدام ZeRO-Infinity.
يقوم مختبر أبحاث صغير بتدريب نموذج متعدد المليارات من المعلمات على عدد قليل من وحدات معالجة الرسومات عن طريق نقل حالات المُحسِّن إلى محركات أقراص NVMe باستخدام فرق ZeRO-Infinity عادةً ما تحصل على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
تفريغ حالة المُحسِّن إلى وحدة المعالجة المركزية (CPU) وNVMe عمليًا
Hugging Face تسريع التكوينات التي تتيح إلغاء تحميل وحدة المعالجة المركزية (CPU) حتى يتمكن المستخدمون من تشغيل مهام الضبط الدقيق الكاملة التي قد تؤدي إلى حدوث أخطاء خارج الذاكرة.
تسريع التكوينات التي تتيح إلغاء تحميل وحدة المعالجة المركزية (CPU) حتى يتمكن المستخدمون من تشغيل مهام الضبط الدقيق الكاملة التي قد تؤدي إلى حدوث أخطاء خارج الذاكرة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتبع كل من مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
تفريغ حالة المُحسِّن إلى وحدة المعالجة المركزية (CPU) وNVMe عمليًا
تقوم الشركات الناشئة التي تهتم بالتكلفة بتأجير وحدات معالجة رسوميات سحابية أرخص وذات ذاكرة أقل وتفريغها إلى NVMe المرفقة بدلاً من الدفع مقابل بطاقات من الدرجة الأولى بسعة 80 جيجابايت.
الشركات الناشئة التي تهتم بالتكلفة تستأجر وحدات معالجة رسومات سحابية أرخص وذات ذاكرة منخفضة وتقوم بتفريغ التحميل إلى NVMe المرفقة بدلاً من الدفع مقابل بطاقات من الدرجة الأولى بسعة 80 جيجابايت. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.
غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.
يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.
خارطة طريق التنفيذ
تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.
تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
المعيار في ظل ظروف التحميل والبيانات الواقعية.
المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.
مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.
قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.