دليل الدقة والاستدعاء

نظرة عامة

الدقة والتذكر هما مقياسان متكاملان لتقييم المصنفات، خاصة عندما تكون الفئات غير متوازنة. ويكشفان معًا ما تخفيه الدقة الواضحة، أي عدد المرات التي تكون فيها التنبؤات الإيجابية للنموذج صحيحة، وعدد الإيجابيات الحقيقية التي يلتقطها بالفعل.

توجد الدقة والاستدعاء في مجموعة أدوات الذكاء الاصطناعي الأساسية. عندما تفهمها، يصبح تقييم موضوعات الذكاء الاصطناعي الأخرى ومقارنتها أسهل.

الغوص العميق

عندما يشير النموذج إلى العناصر على أنها إيجابية، هناك سؤالان مهمان. الدقة تتساءل: من بين كل ما وضعنا علامة عليه، ما هو الجانب الإيجابي حقًا؟ وهو يساوي الإيجابيات الحقيقية مقسومة على جميع الإيجابيات المتوقعة، مما يعاقب الإنذارات الكاذبة. الاستدعاء (الحساسية) يسأل: من بين كل الإيجابيات الحقيقية الموجودة هناك، كم عدد الإيجابيات التي حصلنا عليها؟ وهو يساوي الإيجابيات الحقيقية مقسومة على جميع الإيجابيات الفعلية، مع معاقبة الأخطاء. وعادةً ما تتم المقايضة بين هذه الأمور: يؤدي خفض عتبة القرار إلى الحصول على المزيد من الإيجابيات (استدعاء أعلى) ولكنه يشير إلى المزيد من الرسائل غير المرغوب فيها (دقة أقل)، والعكس صحيح. يعتمد تحديد الأولويات على التكاليف - يفضل مرشح البريد العشوائي الدقة (لا تقم بإلقاء البريد الحقيقي في سلة المهملات)، بينما يفضل فحص السرطان التذكير (لا تفوت أي ورم). درجة F1، ومتوسطها التوافقي، يوازن كليهما في رقم واحد.

البصيرة الفنية

يأتي كلا المقياسين من الإيجابيات الحقيقية (TP) والإيجابيات الكاذبة (FP) والسلبيات الكاذبة (FN) لمصفوفة الارتباك: الدقة = TP / (TP + FP)، الاستدعاء = TP / (TP + FN). والجدير بالذكر أن أيًا منهما لا يستخدم السلبيات الحقيقية، ولهذا السبب يظلون غنيين بالمعلومات عندما يفوق عدد السلبيات عدد الإيجابيات بشكل كبير. إن تجاوز عتبة التصنيف يتتبع منحنى الاسترجاع الدقيق؛ المنطقة الواقعة تحتها (متوسطة الدقة) تلخص الأداء وتفضل على ROC-AUC في البيانات غير المتوازنة للغاية.

إتقان الدقة والتذكير

لبناء فهم عميق، تعامل مع الدقة والاستدعاء كنموذج تشغيل، وليس كميزة واحدة. تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

ومن الناحية العملية، تقوم الفرق القوية التي تستخدم الدقة والاستدعاء ببناء نماذج مفاهيمية قوية أولاً، ثم تقوم بتعيين تلك النماذج لقيود الإنتاج الحقيقية. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي الوقت نفسه، قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق.

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت.

يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم.

تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل الدقة والاستدعاء

مع دخول الذكاء الاصطناعي إلى المجالات عالية المخاطر - التشخيص الطبي، والإشراف على المحتوى، والاحتيال - أبلغت الفرق بشكل متزايد عن الدقة والتذكر (ومنحنياتها) بدلاً من الدقة وحدها، وضبط الحدود لتتناسب مع تكاليف العالم الحقيقي وقيود العدالة. أصبحت عمليات تدقيق الدقة/الاستدعاء لكل مجموعة معيارًا لاكتشاف معدلات الخطأ المتباينة عبر التركيبة السكانية. توقع مقاييس أكثر ثراءً وحساسة للتكلفة، واحتمالات معايرة، وأدوات تتيح لأصحاب المصلحة اختيار نقاط التشغيل بشكل تفاعلي بدلاً من قبول حد افتراضي قدره 0.5.

التنفيذ في العالم الحقيقي

يتم ضبط مرشحات البريد العشوائي للحصول على دقة عالية بحيث لا يتم إرسال رسائل البريد الإلكتروني المشروعة تقريبًا بشكل خاطئ إلى مجلد البريد العشوائي.

تعطي اختبارات الفحص الطبي الأولوية للاستدعاء العالي لتجنب فقدان المرضى الذين يعانون بالفعل من المرض، وقبول المزيد من النتائج الإيجابية الكاذبة للمتابعة.

تقوم أنظمة البحث والتوصية بالإبلاغ عن الدقة@k (كم عدد نتائج k الأعلى ذات الصلة) لقياس جودة التصنيف.

يوازن اكتشاف الاحتيال بين الدقة والاسترداد من خلال درجة F1، نظرًا لأن الإنذارات الكاذبة والاحتيال المفقود أمر مكلف.

أنماط التنفيذ

الدقة والتذكير في الممارسة العملية

يتم ضبط مرشحات البريد العشوائي للحصول على دقة عالية بحيث لا يتم إرسال رسائل البريد الإلكتروني المشروعة تقريبًا بشكل خاطئ إلى مجلد البريد العشوائي.

عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الدقة والتذكير في الممارسة العملية

تعطي اختبارات الفحص الطبي الأولوية للاستدعاء العالي لتجنب فقدان المرضى الذين يعانون بالفعل من المرض، وقبول المزيد من النتائج الإيجابية الكاذبة للمتابعة.

عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الدقة والتذكير في الممارسة العملية

تقوم أنظمة البحث والتوصية بالإبلاغ عن الدقة@k (كم عدد نتائج k الأعلى ذات الصلة) لقياس جودة التصنيف.

عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الدقة والتذكير في الممارسة العملية

يوازن اكتشاف الاحتيال بين الدقة والاسترداد من خلال درجة F1، نظرًا لأن الإنذارات الكاذبة والاحتيال المفقود أمر مكلف.

عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا.

!

يمكن أن تبدو المعايير قوية بينما يكون الأداء في العالم الحقيقي غير متساوٍ.

!

غالبًا ما يؤدي تجاهل جودة البيانات وخطط التقييم إلى نتائج هشة.

خارطة طريق التنفيذ

1

ابدأ بتعريف لغة واضحة للنتيجة التي تحتاجها.

تعامل مع هذا كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف الطرح مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

اختر مقياس نجاح واحد وحالة فشل واحدة قبل الاختبار.

تعامل مع هذا كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف الطرح مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

قم بتشغيل برنامج تجريبي صغير يحتوي على بيانات تمثيلية، وليس مجموعة تجريبية مصقولة.

تعامل مع هذا كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف الطرح مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بالتوثيق حيثما تساعد الدقة والاستدعاء، وأين تكون الطرق الأبسط أفضل.

تعامل مع هذا كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف الطرح مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف

ما هو الذكاء الاصطناعي؟

احصل على المفاهيم الأساسية قبل الغوص بشكل أعمق.

قراءة الدليل

كيف يتعلم الذكاء الاصطناعي

فهم عملية التدريب وراء الأنظمة الحديثة.

قراءة الدليل

الدقة والتذكير

نظرة عامة

الغوص العميق

البصيرة الفنية

إتقان الدقة والتذكير

التأثير الاستراتيجي

مستقبل الدقة والاستدعاء

التنفيذ في العالم الحقيقي

أنماط التنفيذ

الدقة والتذكير في الممارسة العملية

الدقة والتذكير في الممارسة العملية

الدقة والتذكير في الممارسة العملية

الدقة والتذكير في الممارسة العملية

المخاطر والدرابزين

خارطة طريق التنفيذ

استمر في الاستكشاف

ما هو الذكاء الاصطناعي؟

كيف يتعلم الذكاء الاصطناعي

Related guides