دليل اللغة AI

QLoRA وضبط دقيق 4 بت

QLoRA هي تقنية تتيح لك ضبط نموذج لغة ضخم على وحدة معالجة رسومات مستهلكة واحدة عن طريق تخزين النموذج المجمد في 4 بتات فقط لكل وزن.

نظرة عامة

QLoRA هي تقنية تتيح لك ضبط نموذج لغة ضخم على وحدة معالجة رسومات مستهلكة واحدة عن طريق تخزين النموذج المجمد في 4 بتات فقط لكل وزن. لقد جعل تخصيص نماذج ذات معلمات 65B أمرًا ممكنًا على الأجهزة التي لم يكن بإمكانها في السابق التعامل إلا مع جزء صغير من هذا الحجم.

يعد QLoRA و4-Bit Fine-Tuning جزءًا من مجموعة لغات الذكاء الاصطناعي المستخدمة لقراءة وإنشاء وتصنيف وتحويل النص والكلام على نطاق واسع.

الغوص العميق

عادةً ما يعني الضبط الدقيق لنموذج كبير تحميل كل الأوزان بدقة 16 بت وتحديثها جميعًا، الأمر الذي يتطلب ذاكرة هائلة. تجمع QLoRA بين فكرتين. أولاً، يقوم بتجميد النموذج المُدرب مسبقًا وتكميمه إلى 4 بتات، مما يؤدي إلى خفض الذاكرة أربعة أضعاف تقريبًا. ثانيًا، يستخدم LoRA: بدلاً من تحديث مصفوفات الوزن العملاقة، فإنه يقوم بحقن مصفوفات محولات صغيرة منخفضة الرتبة قابلة للتدريب بجانبها، لذلك يتم تحديث بضعة ملايين فقط من المعلمات. تظل قاعدة 4 بت ثابتة بينما تتدفق التدرجات فقط من خلال المحولات الصغيرة. أظهر QLoRA، الذي تم تقديمه في عام 2023 بواسطة Dettmers وزملائه، أن الضبط الدقيق لنموذج 65B على وحدة معالجة رسومات واحدة بسعة 48 جيجابايت يمكن أن يتطابق مع جودة الضبط الدقيق الكامل لـ 16 بت.

البصيرة الفنية

قدمت QLoRA ثلاث حيل. NF4 (4 بت NormalFloat) هو نوع بيانات مُحسّن لتوزيع منحنى الجرس للأوزان العصبية، مما يوفر دقة أفضل من int4 العادي. يضغط التكميم المزدوج ثوابت التكميم نفسها، مما يوفر ذاكرة إضافية. تستخدم أدوات التحسين المقسمة إلى صفحات ذاكرة موحدة لوحدة معالجة الرسومات (GPU) ووحدة المعالجة المركزية (CPU) لامتصاص الارتفاعات أثناء التسلسلات الطويلة، مما يمنع حدوث أعطال بسبب نفاد الذاكرة. أثناء التمرير للأمام والخلف، يتم تجزئة الأوزان ذات 4 بت إلى 16 بت في الوقت المناسب لتتضاعف المصفوفة، ثم يتم التخلص منها.

إتقان QLoRA والضبط الدقيق لـ 4 بت

QLoRA هي تقنية تتيح لك ضبط نموذج لغة ضخم على وحدة معالجة رسومات مستهلكة واحدة عن طريق تخزين النموذج المجمد في 4 بتات فقط لكل وزن. لقد جعل تخصيص نماذج ذات معلمات 65B أمرًا ممكنًا على الأجهزة التي لم يكن بإمكانها في السابق التعامل إلا مع جزء صغير من هذا الحجم. يعد QLoRA و4-Bit Fine-Tuning جزءًا من مجموعة لغات الذكاء الاصطناعي المستخدمة لقراءة وإنشاء وتصنيف وتحويل النص والكلام على نطاق واسع. لبناء فهم عميق، تعامل مع QLoRA و4-Bit Fine-Tuning كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم QLoRA وتصميم 4-Bit Fine-Tuning على المطالبة بحلقات الاسترجاع والمراجعة كنظام اتصال متكامل واحد. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي الوقت نفسه، يمكن للحقائق المهلوسة أن تدخل التقارير أو التدفقات الداعمة أو مخرجات البحث بهدوء. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق.

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

فهو يوسع الوصول عبر اللغات وأنماط الاتصال.

فهو يوسع الوصول عبر اللغات وأنماط الاتصال. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار.

يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل QLoRA والضبط الدقيق لـ 4 بت

لقد أصبح الضبط الدقيق لـ 4 بت ممارسة قياسية، وتتجه الأبحاث الآن نحو دقة أقل، بما في ذلك تمثيل 2 بت و1 بت (الثلاثي). تعمل أنظمة التكميم الأحدث مثل AWQ وGPTQ وHQQ على تحسين الدقة بشكل أكبر، بينما تهدف تقنيات مثل QA-LoRA إلى الحفاظ على النموذج كميًا حتى بعد دمج المحولات. مع نمو النماذج ذات الوزن المفتوح، توقع أن تصبح الأدوات التي تتيح للهواة ضبط النماذج التي تزيد عن 70 مليارًا على وحدة معالجة رسومات ألعاب واحدة روتينية، مما يضفي طابعًا ديمقراطيًا على التخصيص.

التنفيذ في العالم الحقيقي

تقوم إحدى الشركات الناشئة بضبط نموذج 70B Llama على وحدة معالجة رسومات واحدة بسعة 48 جيجابايت لإنشاء مساعد دعم العملاء بصوت علامتها التجارية الخاصة دون استئجار مجموعة خوادم.

يقوم باحث يستخدم مستهلكًا واحدًا RTX 4090 بتكييف نموذج مفتوح لمجموعة بيانات متخصصة للإجابة على الأسئلة الطبية بين عشية وضحاها.

يقوم المطور بإنشاء العشرات من محولات LoRA الصغيرة القابلة للتبديل لمهام مختلفة، وكلها تشترك في نموذج أساسي واحد 4 بت يتم تحميله في الذاكرة.

يقوم أحد الهواة بضبط النموذج في سجلات الدردشة الشخصية الخاصة به لتقليد أسلوب كتابة معين باستخدام أجهزة مجانية من فئة Colab.

أنماط التنفيذ

QLoRA والضبط الدقيق 4 بت في الممارسة العملية

تقوم إحدى الشركات الناشئة بضبط نموذج 70B Llama على وحدة معالجة رسومات واحدة بسعة 48 جيجابايت لإنشاء مساعد دعم العملاء بصوت علامتها التجارية الخاصة دون استئجار مجموعة خوادم.

تقوم شركة ناشئة بضبط نموذج 70B Llama على وحدة معالجة رسومات واحدة بسعة 48 جيجابايت لبناء مساعد دعم العملاء بصوت علامتها التجارية الخاصة دون استئجار مجموعة خوادم. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

QLoRA والضبط الدقيق 4 بت في الممارسة العملية

يقوم باحث يستخدم مستهلكًا واحدًا RTX 4090 بتكييف نموذج مفتوح لمجموعة بيانات متخصصة للإجابة على الأسئلة الطبية بين عشية وضحاها.

يقوم باحث مع مستهلك واحد RTX 4090 بتكييف نموذج مفتوح لمجموعة بيانات طبية متخصصة للإجابة على الأسئلة بين عشية وضحاها. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

QLoRA والضبط الدقيق 4 بت في الممارسة العملية

يقوم المطور بإنشاء العشرات من محولات LoRA الصغيرة القابلة للتبديل لمهام مختلفة، وكلها تشترك في نموذج أساسي واحد 4 بت يتم تحميله في الذاكرة.

يقوم المطور بإنشاء العشرات من محولات LoRA الصغيرة القابلة للتبديل لمهام مختلفة، وكلها تشترك في نموذج أساسي واحد 4 بت يتم تحميله في الذاكرة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

QLoRA والضبط الدقيق 4 بت في الممارسة العملية

يقوم أحد الهواة بضبط النموذج في سجلات الدردشة الشخصية الخاصة به لتقليد أسلوب كتابة معين باستخدام أجهزة مجانية من فئة Colab.

يقوم أحد الهواة بضبط نموذج في سجلات الدردشة الشخصية الخاصة به لتقليد أسلوب كتابة معين باستخدام أجهزة مجانية من فئة Colab. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن للحقائق المهلوسة إدخال التقارير أو تدفقات الدعم أو مخرجات البحث بهدوء.

!

يمكن أن تؤدي الحساسية السريعة إلى نتائج غير متناسقة عبر الطلبات المماثلة.

!

قد يتم كشف البيانات النصية الحساسة إذا كانت عناصر التحكم في الوصول ضعيفة.

خارطة طريق التنفيذ

1

حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل.

حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة.

استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر.

احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام.

تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف