دليل اللغة AI

الذكاء الاصطناعي الدستوري

الذكاء الاصطناعي الدستوري هو طريقة Anthropic لمواءمة النماذج باستخدام مجموعة مكتوبة من المبادئ - "الدستور" - لذا ينتقد الذكاء الاصطناعي إجاباته وينقحها بدلاً من الاعتماد فقط على البشر لتصنيف المحتوى الضار.

نظرة عامة

الذكاء الاصطناعي الدستوري هو طريقة Anthropic لمواءمة النماذج باستخدام مجموعة مكتوبة من المبادئ - "الدستور" - لذا ينتقد الذكاء الاصطناعي إجاباته وينقحها بدلاً من الاعتماد فقط على البشر لتصنيف المحتوى الضار. ويهدف إلى جعل النماذج مفيدة وغير ضارة بجهد بشري أقل بكثير.

يعد الذكاء الاصطناعي الدستوري جزءًا من مجموعة لغات الذكاء الاصطناعي المستخدمة لقراءة النص والكلام وإنشائه وتصنيفه وتحويله على نطاق واسع.

الغوص العميق

تعتمد المواءمة التقليدية على التعلم المعزز من ردود الفعل البشرية (RLHF)، حيث يقوم الأشخاص بتصنيف الكثير من مخرجات النموذج، بما في ذلك المخرجات المزعجة، لتعليم النموذج ما يجب تجنبه. يعمل الذكاء الاصطناعي الدستوري على تقليل هذا العبء من خلال إعطاء النموذج قائمة واضحة من المبادئ المكتوبة المستمدة من مصادر مثل إعلان الأمم المتحدة لحقوق الإنسان وأفضل ممارسات الثقة والسلامة. التدريب له مرحلتين. أولاً، مرحلة تحت الإشراف: يولد النموذج استجابة، ثم ينتقدها ضد مبدأ دستوري ويعيد كتابتها لتكون أفضل؛ يتم استخدام هذه الإجابات المحسّنة ذاتيًا لضبطها. ثانيًا، مرحلة التعلم المعزز، RLAIF، حيث يقوم النموذج نفسه بتصنيف أزواج من الاستجابات وفقًا للدستور، وتقوم بيانات التفضيلات الناتجة عن الذكاء الاصطناعي بتدريب نموذج المكافأة. تتميز المبادئ بالشفافية وقابلة للتحرير، مما يجعل القيم التي توجه النموذج قابلة للفحص بدلاً من إخفائها داخل ملصقات بشرية مبهمة.

البصيرة الفنية

غالبًا ما يُطلق على المرحلتين اسم SL-CAI وRL-CAI. في التعلم الخاضع للإشراف، تحث حلقة "النقد والمراجعة" النموذج على العثور على المكان الذي تنتهك فيه إجابته مبدأ العينة وإعادة كتابته، مما يؤدي إلى توليد بيانات تدريب دون تصنيف الضرر البشري. في مرحلة RL، يحكم النموذج الثاني على أي من الاستجابتين يتبع الدستور بشكل أفضل، وينتج تسميات تفضيلات الذكاء الاصطناعي (RLAIF) التي تدرب نموذج المكافأة المستخدم في RL القياسي. الدستور عبارة عن توجيه نصي عادي تم إدخاله في المطالبات، لذا فإن تغيير سلوك النموذج يمكن أن يكون مباشرًا مثل تحرير المبادئ.

إتقان الذكاء الاصطناعي الدستوري

الذكاء الاصطناعي الدستوري هو طريقة Anthropic لمواءمة النماذج باستخدام مجموعة مكتوبة من المبادئ - "الدستور" - لذا ينتقد الذكاء الاصطناعي إجاباته وينقحها بدلاً من الاعتماد فقط على البشر لتصنيف المحتوى الضار. ويهدف إلى جعل النماذج مفيدة وغير ضارة بجهد بشري أقل بكثير. يعد الذكاء الاصطناعي الدستوري جزءًا من مجموعة لغات الذكاء الاصطناعي المستخدمة لقراءة النص والكلام وإنشائه وتصنيفه وتحويله على نطاق واسع. لبناء فهم عميق، يجب التعامل مع الذكاء الاصطناعي الدستوري كنموذج تشغيلي، وليس كميزة واحدة: تحديد النتائج المرجوة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تستخدم الفرق القوية تصميم الذكاء الاصطناعي الدستوري لحلقات المطالبة والاسترجاع والمراجعة كنظام اتصال متكامل واحد. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي الوقت نفسه، يمكن للحقائق المهلوسة أن تدخل التقارير أو التدفقات الداعمة أو مخرجات البحث بهدوء. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق.

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

فهو يوسع الوصول عبر اللغات وأنماط الاتصال.

فهو يوسع الوصول عبر اللغات وأنماط الاتصال. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار.

يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل الذكاء الاصطناعي الدستوري

ويشير الذكاء الاصطناعي الدستوري إلى "الرقابة القابلة للتطوير"، حيث يساعد الذكاء الاصطناعي في الإشراف على الذكاء الاصطناعي مع نمو النماذج بحيث تصبح قادرة على التحقق من كل مخرجات. توقع دساتير أكثر ثراءً ودقة، ومدخلات عامة وتشاركية يتم فيها اختيار المبادئ (Anthropic أجرت تجارب "الذكاء الاصطناعي الدستوري الجماعي")، وأساليب هجينة تمزج ردود الفعل البشرية مع النقد الذاتي للذكاء الاصطناعي. إن شفافية المبادئ المكتوبة تجعل هذا أمرًا جذابًا للمنظمين والمدققين الراغبين في رؤية القيم التي يرمزها النظام. ومع تقدم النماذج الحدودية، من المرجح أن تصبح الأساليب التي تسمح للنماذج بنقد وتحسين نفسها بشكل موثوق في مواجهة القواعد الواضحة عنصرًا أساسيًا للسلامة.

التنفيذ في العالم الحقيقي

تدريب روبوت الدردشة على رفض المساعدة في بناء سلاح من خلال جعله ينتقد مسودة إجابته الخاصة ضد مبدأ تجنب الضرر وإعادة كتابتها

استبدال العلامات المكلفة للفريق الأحمر البشري للمخرجات السامة ببيانات التفضيلات التي ينشئها الذكاء الاصطناعي (RLAIF) مسترشدة بالدستور

تحرير مبدأ مكتوب لضبط مدى حذر النموذج، ثم ملاحظة تغير السلوك دون إعادة تسمية آلاف الأمثلة

إجراء تمارين مدخلات جماعية حيث يقترح الجمهور المبادئ التي تشكل دستور النموذج

أنماط التنفيذ

الذكاء الاصطناعي الدستوري في الممارسة العملية

تدريب روبوت الدردشة على رفض المساعدة في بناء سلاح من خلال جعله ينتقد مسودة إجابته الخاصة ضد مبدأ تجنب الضرر وإعادة كتابتها.

تدريب روبوت الدردشة على رفض المساعدة في بناء سلاح من خلال جعله ينتقد مسودة الإجابة الخاصة به مقابل مبدأ تجنب الضرر وإعادة كتابته. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.

الذكاء الاصطناعي الدستوري في الممارسة العملية

استبدال علامات الفريق الأحمر المكلفة للمخرجات السامة ببيانات التفضيلات التي ينشئها الذكاء الاصطناعي (RLAIF) مسترشدة بالدستور.

استبدال تصنيف الفريق الأحمر البشري المكلف للمخرجات السامة ببيانات التفضيلات التي ينشئها الذكاء الاصطناعي (RLAIF) والتي تسترشد بالدستور، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الذكاء الاصطناعي الدستوري في الممارسة العملية

تحرير مبدأ مكتوب لضبط مدى حذر النموذج، ثم ملاحظة تغير السلوك دون إعادة تسمية آلاف الأمثلة.

تحرير مبدأ مكتوب لضبط مدى حذر النموذج، ثم مراقبة تغير السلوك دون إعادة تسمية آلاف الأمثلة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.

الذكاء الاصطناعي الدستوري في الممارسة العملية

إجراء تمارين مدخلات جماعية حيث يقترح الجمهور المبادئ التي تشكل دستور النموذج.

إجراء تمارين مدخلات جماعية حيث يقترح الجمهور المبادئ التي تشكل دستور النموذج عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري للحالات الطرفية، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.

المخاطر والدرابزين

!

يمكن للحقائق المهلوسة إدخال التقارير أو تدفقات الدعم أو مخرجات البحث بهدوء.

!

يمكن أن تؤدي الحساسية السريعة إلى نتائج غير متناسقة عبر الطلبات المماثلة.

!

قد يتم كشف البيانات النصية الحساسة إذا كانت عناصر التحكم في الوصول ضعيفة.

خارطة طريق التنفيذ

1

حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل.

حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة.

استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر.

احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام.

تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف