دليل التطبيقات

وكلاء استخدام الكمبيوتر

يقوم الوكلاء الذين يستخدمون الكمبيوتر بتشغيل الكمبيوتر بالطريقة التي يعمل بها الشخص: عرض الشاشة، وتحريك المؤشر، والنقر، والكتابة.

نظرة عامة

يقوم الوكلاء الذين يستخدمون الكمبيوتر بتشغيل الكمبيوتر بالطريقة التي يعمل بها الشخص: عرض الشاشة، وتحريك المؤشر، والنقر، والكتابة. يتيح ذلك للذكاء الاصطناعي استخدام أي برنامج بواجهة رسومية، حتى التطبيقات التي لا تحتوي على واجهة برمجة التطبيقات.

يركز وكلاء استخدام الكمبيوتر على النشر العملي: تحويل قدرة النموذج إلى سير عمل يومي موثوق به يوفر قيمة قابلة للقياس.

الغوص العميق

يتحكم وكيل استخدام الكمبيوتر (CUA) في سطح المكتب الحقيقي أو الافتراضي من خلال شاشته وأجهزة الإدخال بدلاً من واجهات برمجة التطبيقات على مستوى التعليمات البرمجية. يتلقى النموذج لقطات شاشة للشاشة، وأسبابًا حول ما يراه، ويخرج إجراءات منخفضة المستوى مثل "النقر على الإحداثي (412، 230)" أو "اكتب هذا النص" أو "التمرير لأسفل". تتكرر حلقة الإدراك والإجراء هذه: تصرف، التقط لقطة شاشة جديدة، ثم قرر الخطوة التالية. ونظرًا لأنه يعمل على مستوى البكسل وضغط المفاتيح، يمكن لـ CUA تشغيل متصفحات الويب وملء النماذج والتنقل في القوائم واستخدام التطبيقات القديمة التي لا تكشف عن أي واجهة برمجية. تتضمن الأمثلة استخدام Anthropic لجهاز الكمبيوتر Claude وعامل تشغيل OpenAI. إن المقايضات حقيقية: يمكن أن تكون قراءة الشاشة بطيئة، ويمكن أن تفوت النقرات، كما أن منح الوكيل التحكم في الجهاز يثير مخاوف تتعلق بالسلامة، لذلك يتم تشغيل معظمها في بيئات معزولة أو خاضعة للإشراف.

البصيرة الفنية

يُعطى الوكيل لقطة شاشة بالإضافة إلى المهمة، ويقوم النموذج القادر على رؤية العناصر (الأزرار والحقول) بإحداثيات البكسل. يصدر إجراءً منظمًا تنفذه طبقة الأتمتة ضد نظام التشغيل أو المتصفح. بعد كل إجراء، تُغلق لقطة شاشة جديدة الحلقة، وبالتالي يدرك الوكيل النتيجة قبل التصرف مرة أخرى. تعتمد الموثوقية بشكل كبير على الأساس البصري الدقيق وعلى منطق إعادة المحاولة أو التحقق عندما تصل النقرة إلى العنصر الخطأ.

إتقان وكلاء استخدام الكمبيوتر

يقوم الوكلاء الذين يستخدمون الكمبيوتر بتشغيل الكمبيوتر بالطريقة التي يعمل بها الشخص: عرض الشاشة، وتحريك المؤشر، والنقر، والكتابة. يتيح ذلك للذكاء الاصطناعي استخدام أي برنامج بواجهة رسومية، حتى التطبيقات التي لا تحتوي على واجهة برمجة التطبيقات. يركز وكلاء استخدام الكمبيوتر على النشر العملي: تحويل قدرة النموذج إلى سير عمل يومي موثوق به يوفر قيمة قابلة للقياس. لبناء فهم عميق، يجب التعامل مع وكلاء استخدام الكمبيوتر كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تركز الفرق القوية التي تستخدم وكلاء استخدام الكمبيوتر على نتائج سير العمل، وليس العروض التوضيحية النموذجية، وتحدد نقاط التفتيش البشرية مبكرًا. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يحدد التصميم على مستوى التطبيق ما إذا كان الذكاء الاصطناعي سيحسن النتائج الحقيقية. وفي الوقت نفسه، يمكن أن تؤدي أتمتة عملية معطلة إلى تضخيم المشاكل الموجودة. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يحدد التصميم على مستوى التطبيق ما إذا كان الذكاء الاصطناعي سيحسن النتائج الحقيقية.

يحدد التصميم على مستوى التطبيق ما إذا كان الذكاء الاصطناعي سيحسن النتائج الحقيقية. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يؤدي التكامل الجيد لسير العمل إلى تحقيق مكاسب إنتاجية يمكن للمستخدمين الوثوق بها.

يؤدي التكامل الجيد لسير العمل إلى تحقيق مكاسب إنتاجية يمكن للمستخدمين الوثوق بها. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تعمل حالات الاستخدام ذات النطاق الجيد على تقليل إجهاد التغيير ومخاطر التنفيذ.

تعمل حالات الاستخدام ذات النطاق الجيد على تقليل إجهاد التغيير ومخاطر التنفيذ. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل وكلاء استخدام الكمبيوتر

سيتم تحسين الدقة والسرعة مع تحسن النماذج في تأريض عناصر واجهة المستخدم ومع تحول بعض التفاعلات إلى أشجار إمكانية الوصول بشكل أسرع بدلاً من وحدات البكسل الأولية. توقع حواجز حماية أقوى: مطالبات التأكيد قبل الإجراءات المحفوفة بالمخاطر، وصناديق الحماية المقيدة، وسجلات التدقيق. تنضج المعايير القياسية لمهام سطح المكتب والويب، مما يؤدي إلى تحقيق تقدم قابل للقياس. على المدى الطويل، قد تمزج CUAs التحكم في البكسل مع مكالمات واجهة برمجة التطبيقات المباشرة، باستخدام أيهما أكثر موثوقية لكل تطبيق، مع الحفاظ على خطوة الموافقة البشرية للعمليات الحساسة مثل المدفوعات.

التنفيذ في العالم الحقيقي

وكيل يقوم بحجز مطعم عن طريق فتح المتصفح، والتنقل في موقع الحجز، واختيار الوقت، وإدخال تفاصيل الاتصال.

أتمتة تقارير النفقات من خلال قراءة الإيصالات على الشاشة وكتابة القيم في تطبيق محاسبة سطح المكتب الذي لا يحتوي على واجهة برمجة التطبيقات.

اختبار ضمان الجودة حيث ينقر الوكيل خلال تدفق الاشتراك في تطبيق الويب للتأكد من عمل كل زر ونموذج.

قم بملء نماذج الويب الحكومية أو التأمينية المتكررة من خلال قراءة تسمية كل حقل وكتابة المعلومات الصحيحة.

أنماط التنفيذ

وكلاء استخدام الكمبيوتر في الممارسة العملية

وكيل يقوم بحجز مطعم عن طريق فتح المتصفح، والتنقل في موقع الحجز، واختيار الوقت، وإدخال تفاصيل الاتصال.

وكيل يحجز مطعمًا عن طريق فتح متصفح، والتنقل في موقع الحجز، واختيار الوقت، وإدخال تفاصيل الاتصال. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

وكلاء استخدام الكمبيوتر في الممارسة العملية

أتمتة تقارير النفقات من خلال قراءة الإيصالات على الشاشة وكتابة القيم في تطبيق محاسبة سطح المكتب الذي لا يحتوي على واجهة برمجة التطبيقات.

أتمتة تقارير النفقات عن طريق قراءة الإيصالات على الشاشة وكتابة القيم في تطبيق محاسبة سطح المكتب الذي لا يحتوي على واجهة برمجة التطبيقات (API) تحصل الفرق عادةً على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

وكلاء استخدام الكمبيوتر في الممارسة العملية

اختبار ضمان الجودة حيث ينقر الوكيل خلال تدفق الاشتراك في تطبيق الويب للتأكد من عمل كل زر ونموذج.

اختبار ضمان الجودة حيث ينقر الوكيل خلال تدفق الاشتراك في تطبيق الويب لتأكيد كل زر وعمل النموذج. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

وكلاء استخدام الكمبيوتر في الممارسة العملية

قم بملء نماذج الويب الحكومية أو التأمينية المتكررة من خلال قراءة تسمية كل حقل وكتابة المعلومات الصحيحة.

ملء نماذج الويب الحكومية أو التأمينية المتكررة من خلال قراءة كل تسمية حقل وكتابة المعلومات الصحيحة، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن تؤدي أتمتة عملية معطلة إلى تضخيم المشاكل الموجودة.

!

قد تقوم الفرق بالإفراط في أتمتة وإزالة الحكم البشري المطلوب.

!

يمكن أن تنحرف الجودة إذا لم يتم تقييم المخرجات بشكل مستمر.

خارطة طريق التنفيذ

1

قم بتخطيط سير العمل الحالي وحدد خطوة الاحتكاك الأعلى.

قم بتخطيط سير العمل الحالي وحدد خطوة الاحتكاك الأعلى. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

تحديد نقاط التفتيش البشرية قبل الأتمتة الكاملة.

تحديد نقاط التفتيش البشرية قبل الأتمتة الكاملة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

تدريب المستخدمين على المطالبات ومسارات التصعيد ومعايير الجودة.

تدريب المستخدمين على المطالبات ومسارات التصعيد ومعايير الجودة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

تتبع النتائج على مستوى المهمة لتأكيد القيمة المستدامة.

تتبع النتائج على مستوى المهمة لتأكيد القيمة المستدامة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف