نظرة عامة
إن تحسين Kahneman-Tversky (KTO) هو أسلوب محاذاة يتعلم من التسميات البسيطة التي تشير إلى الإعجاب أو الإعجاب إلى الأسفل بدلاً من المقارنات المقترنة. هذا مهم لأن جمع التعليقات الثنائية أسهل بكثير وأرخص من الأزواج المرتبة التي تتطلبها معظم الطرق.
يُعد تحسين Kahneman-Tversky جزءًا من حزمة لغة الذكاء الاصطناعي المستخدمة لقراءة وإنشاء وتصنيف وتحويل النص والكلام على نطاق واسع.
الغوص العميق
KTO، التي قدمها إيثاياراج وزملاؤه في جامعة ستانفورد والذكاء الاصطناعي السياقي في عام 2024، تستعير من نظرية الاحتمال، العمل الحائز على جائزة نوبل لدانييل كانيمان وآموس تفيرسكي حول كيفية تقييم البشر للمكاسب والخسائر. تحتاج الطرق القياسية مثل DPO إلى أزواج تفضيلية: إجابة مختارة وإجابة مرفوضة لنفس الموجه. تعمل KTO بدلاً من ذلك مع البيانات غير المقترنة حيث يتم ببساطة تمييز كل مخرجات فردية بأنها مرغوبة أو غير مرغوب فيها. إنه يبني خسارة مدركة للإنسان والتي تتعامل مع تحسين النموذج على عينة على أنه مكسب أو خسارة بالنسبة إلى نقطة مرجعية، مع تطبيق تجنب الخسارة بحيث تتم معاقبة المخرجات غير المرغوب فيها بشكل أكثر حدة من مكافأة المخرجات المرغوبة. يتيح ذلك للفرق استخدام إشارات الإعجاب/الرفض الوفيرة التي تم جمعها بالفعل في تطبيقات الإنتاج.
البصيرة الفنية
تحدد KTO دالة القيمة المصممة على أساس نظرية الاحتمال، حيث تقيس مدى تواجد المكافأة الضمنية للاستجابة أعلى أو أسفل خط الأساس المرجعي (غالبًا ما يكون متوسط انحراف KL عن السياسة المرجعية). الأمثلة المرغوبة تدفع القيمة للأعلى، والأمثلة غير المرغوب فيها تدفعها للأسفل، ومعامل النفور من الخسارة يجعل الانحرافات السلبية أثقل. والأهم من ذلك أنه يحتاج فقط إلى تسمية لكل مثال، وليس أزواجًا متطابقة.
إتقان تحسين كانيمان-تفرسكي
إن تحسين Kahneman-Tversky (KTO) هو أسلوب محاذاة يتعلم من التسميات البسيطة التي تشير إلى الإعجاب أو الإعجاب إلى الأسفل بدلاً من المقارنات المقترنة. هذا مهم لأن جمع التعليقات الثنائية أسهل بكثير وأرخص من الأزواج المرتبة التي تتطلبها معظم الطرق. يُعد تحسين Kahneman-Tversky جزءًا من حزمة لغة الذكاء الاصطناعي المستخدمة لقراءة وإنشاء وتصنيف وتحويل النص والكلام على نطاق واسع. لبناء فهم عميق، يجب التعامل مع نظام كانيمان-تفيرسكي الأمثل باعتباره نموذجًا تشغيليًا، وليس سمة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يستطيع النظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تعمل الفرق القوية التي تستخدم تصميم Kahneman-Tversky Optimization على المطالبة بحلقات الاسترجاع والمراجعة كنظام اتصال متكامل واحد. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي الوقت نفسه، يمكن للحقائق المهلوسة أن تدخل التقارير أو التدفقات الداعمة أو مخرجات البحث بهدوء. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق.
يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
فهو يوسع الوصول عبر اللغات وأنماط الاتصال.
فهو يوسع الوصول عبر اللغات وأنماط الاتصال. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار.
يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
استخدام نقرات الإبهام لأعلى/الإبهام للأسفل من برنامج الدردشة المنتشر لضبطه دون إنشاء أزواج تفضيلات على الإطلاق
محاذاة النموذج عندما يكون لديك كومة من الإجابات "الجيدة" و"السيئة" ولكن لا توجد مقارنات متطابقة لنفس المطالبات
يقوم فريق المنتج بإعادة تدوير إشارات الاعتدال (غير المرغوب فيها) والاستجابات المحفوظة (مرغوب فيه) في تدريب KTO
التعامل مع التعليقات غير المتوازنة حيث تكون عدم الإعجاب أكثر ندرة من الإعجابات من خلال ضبط النفور من الخسارة وأوزان الفئة في KTO
أنماط التنفيذ
تحسين كانيمان-تفرسكي في الممارسة العملية
استخدام نقرات الإبهام لأعلى/الإبهام لأسفل من برنامج الدردشة المنتشر لضبطه دون إنشاء أزواج تفضيلات على الإطلاق.
استخدام نقرات إبهام لأعلى/إبهام لأسفل من برنامج دردشة منشور لضبطه دون إنشاء أزواج تفضيلات على الإطلاق، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
تحسين كانيمان-تفرسكي في الممارسة العملية
محاذاة النموذج عندما يكون لديك كومة من الإجابات "الجيدة" و"السيئة" ولكن لا توجد مقارنات متطابقة لنفس المطالبات.
محاذاة النموذج عندما يكون لديك كومة من الإجابات "الجيدة" و"السيئة" ولكن لا توجد مقارنات متطابقة لنفس المطالبات، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.
تحسين كانيمان-تفرسكي في الممارسة العملية
يقوم فريق المنتج بإعادة تدوير إشارات الاعتدال (غير المرغوب فيها) والاستجابات المحفوظة (مرغوب فيه) في تدريب KTO.
يقوم فريق المنتج بإعادة تدوير إشارات الاعتدال (غير المرغوب فيها) والاستجابات المحفوظة (المرغوبة) في تدريب KTO عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
تحسين كانيمان-تفرسكي في الممارسة العملية
التعامل مع التعليقات غير المتوازنة حيث تكون عدم الإعجاب أكثر ندرة من الإعجابات من خلال ضبط النفور من الخسارة وأوزان الفئة في KTO.
التعامل مع التعليقات غير المتوازنة حيث تكون عدم الإعجاب أكثر ندرة من الإعجابات من خلال ضبط النفور من الخسارة وأوزان الفئات لدى KTO، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
يمكن للحقائق المهلوسة إدخال التقارير أو تدفقات الدعم أو مخرجات البحث بهدوء.
يمكن أن تؤدي الحساسية السريعة إلى نتائج غير متناسقة عبر الطلبات المماثلة.
قد يتم كشف البيانات النصية الحساسة إذا كانت عناصر التحكم في الوصول ضعيفة.
خارطة طريق التنفيذ
حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل.
حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة.
استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر.
احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام.
تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.