الدليل الفني

التوازي الموتر للنماذج الكبيرة

طريقة لتقسيم العمليات الحسابية داخل طبقة شبكة عصبية واحدة عبر وحدات معالجة رسوميات متعددة، بحيث يظل من الممكن تشغيل نموذج أكبر من اللازم لجهاز واحد.

نظرة عامة

طريقة لتقسيم العمليات الحسابية داخل طبقة شبكة عصبية واحدة عبر وحدات معالجة رسوميات متعددة، بحيث يظل من الممكن تشغيل نموذج أكبر من اللازم لجهاز واحد. هذا مهم لأن النماذج الحدودية تحتوي على مئات المليارات من المعلمات التي لا يمكن لأي وحدة معالجة رسومات واحدة الاحتفاظ بها أو حسابها بسرعة كافية بمفردها.

يعد Tensor Parallelism for Large Models بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.

الغوص العميق

يعمل توازي الموتر (يسمى أيضًا توازي نموذج الطبقة الداخلية) على تقسيم مصفوفات الوزن الفردية عبر وحدات معالجة الرسومات بدلاً من وضع طبقات كاملة على أجهزة منفصلة. في المحول، يتم تقسيم مضاعفات المصفوفة الكبيرة - إسقاطات الانتباه ومصفوفة التغذية الأمامية MLP: على سبيل المثال، يتم تقسيم مصفوفة الوزن الأولى لـ MLP بواسطة أعمدة والثانية بواسطة صفوف، بحيث تحسب كل وحدة معالجة رسومات شريحة ويجمع كل تقليل واحد النتائج. يتم تقسيم الاهتمام عبر الرؤوس، حيث تتعامل كل وحدة معالجة رسومات (GPU) مع مجموعة فرعية. نظرًا لأن كل وحدة معالجة رسومات (GPU) تقوم بجزء من كل طبقة في وقت واحد، فإن توازي الموتر يقلل من الذاكرة لكل وحدة معالجة رسومات (GPU) ويسرع عملية الحوسبة، ولكنه يتطلب اتصالاً متكررًا وعالي النطاق بين وحدات معالجة الرسومات في كل طبقة. ولهذا السبب عادةً ما يكون محصوراً داخل عقدة متصلة بواسطة NVLink، ويتم دمجه مع خطوط الأنابيب وتوازي البيانات من أجل مهام تدريب وخدمة كبيرة جدًا.

البصيرة الفنية

الحيلة، التي شاعتها شركة Megatron-LM، هي اختيار أبعاد القسم بحيث يكون الاتصال في حده الأدنى. يتيح تقسيم عمود مصفوفة MLP الأولى لكل وحدة معالجة رسومات تطبيق اللاخطية محليًا دون أي مزامنة؛ يعني تقسيم الصف الثاني أن المخرجات تحتاج فقط إلى تقليل كلي واحد لجمع النتائج الجزئية. وبالتالي فإن كل طبقة تتحمل ما يقرب من اثنين من التخفيضات الشاملة (للأمام) واثنين (للخلف). ونظرًا لأن هذه التجمعات تحدث في كل طبقة، فإن زمن الوصول هو المهيمن، لذا فإن توازي الموتر يعيش خلف روابط سريعة داخل العقد مثل NVLink بدلاً من شبكات أبطأ بين العقد.

إتقان التوازي الموتر للنماذج الكبيرة

طريقة لتقسيم العمليات الحسابية داخل طبقة شبكة عصبية واحدة عبر وحدات معالجة رسوميات متعددة، بحيث يظل من الممكن تشغيل نموذج أكبر من اللازم لجهاز واحد. هذا مهم لأن النماذج الحدودية تحتوي على مئات المليارات من المعلمات التي لا يمكن لأي وحدة معالجة رسومات واحدة الاحتفاظ بها أو حسابها بسرعة كافية بمفردها. يعد Tensor Parallelism for Large Models بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، تعامل مع Tensor Parallelism for Large Models كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم Tensor Parallelism for Large Models على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل التوازي الموتر للنماذج الكبيرة

يظل توازي الموتر أساسيًا ولكن يتم مزجه بشكل متزايد في "التوازي ثلاثي الأبعاد" (الموتر + خط الأنابيب + البيانات) ويتم دمجه مع التوازي الخبير لنماذج خليط الخبراء. تعمل أطر العمل مثل Megatron-LM وDeepSpeed ​​وvLLM على أتمتة عملية التجزئة. نظرًا لأن ترابط وحدة معالجة الرسومات (NVLink وNVSwitch) والأنسجة الضوئية تصبح أسرع، فإن حد حدود العقدة يرتاح، مما يسمح بمجموعات موسعة متوازية أوسع. توقع توازيًا تلقائيًا أكثر ذكاءً يختار أبعاد الجزء وأحجام المجموعة لتقليل الاتصال لطوبولوجيا مجموعة معينة.

التنفيذ في العالم الحقيقي

تدريب نموذج ذو معلمة 175B عن طريق تقسيم مصفوفات وزن كل طبقة عبر 8 وحدات معالجة رسومات في عقدة واحدة متصلة بـ NVLink باستخدام Megatron-LM.

تقديم نموذج دردشة ذو 70B معلمة في vLLM باستخدام Tensor_parallel_size=4 بحيث تتناسب الأوزان عبر أربع وحدات معالجة رسوميات وتستجيب في الوقت الفعلي.

يتجه تقسيم انتباه المحولات عبر وحدات معالجة الرسومات بحيث يحسب كل جهاز مجموعة فرعية، ثم يقوم بتسلسل المخرجات للطبقة التالية.

الجمع بين توازي الموتر داخل العقد وتوازي خطوط الأنابيب عبر العقد لتدريب نماذج تريليون معلمة على مجموعات GPU الكبيرة.

أنماط التنفيذ

التوازي الموتر للنماذج الكبيرة في الممارسة العملية

تدريب نموذج ذو معلمة 175B عن طريق تقسيم مصفوفات وزن كل طبقة عبر 8 وحدات معالجة رسومات في عقدة واحدة متصلة بـ NVLink باستخدام Megatron-LM.

تدريب نموذج ذو معلمة 175B من خلال مشاركة مصفوفات وزن كل طبقة عبر 8 وحدات معالجة رسوميات في عقدة واحدة متصلة بـ NVLink باستخدام فرق Megatron-LM عادةً ما تحصل على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتبع كل من مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

التوازي الموتر للنماذج الكبيرة في الممارسة العملية

تقديم نموذج دردشة ذو 70B معلمة في vLLM باستخدام Tensor_parallel_size=4 بحيث تتناسب الأوزان عبر أربع وحدات معالجة رسوميات وتستجيب في الوقت الفعلي.

خدمة نموذج دردشة ذو 70B معلمة في vLLM باستخدام Tensor_parallel_size=4 بحيث تتناسب الأوزان عبر أربع وحدات معالجة رسوميات وتستجيب في الوقت الفعلي. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

التوازي الموتر للنماذج الكبيرة في الممارسة العملية

يتجه تقسيم انتباه المحولات عبر وحدات معالجة الرسومات بحيث يحسب كل جهاز مجموعة فرعية، ثم يقوم بتسلسل المخرجات للطبقة التالية.

يتجه تقسيم انتباه المحولات عبر وحدات معالجة الرسومات بحيث يحسب كل جهاز مجموعة فرعية، ثم تسلسل المخرجات للطبقة التالية. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

التوازي الموتر للنماذج الكبيرة في الممارسة العملية

الجمع بين توازي الموتر داخل العقد وتوازي خطوط الأنابيب عبر العقد لتدريب نماذج تريليون معلمة على مجموعات GPU الكبيرة.

الجمع بين توازي الموتر داخل العقد وتوازي خطوط الأنابيب عبر العقد لتدريب نماذج تريليون معلمة على مجموعات كبيرة من وحدات معالجة الرسومات، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.

!

غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.

!

يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.

خارطة طريق التنفيذ

1

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

المعيار في ظل ظروف التحميل والبيانات الواقعية.

المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف