نظرة عامة
Imbue هو أحد عملاء بناء مختبر الذكاء الاصطناعي الذي يمكنه التفكير والبرمجة والتصرف بقوة كافية ليتم الوثوق به في المهام الحقيقية. وهذا مهم لأن الموثوقية - وليس فقط الذكاء الخام - هي عنق الزجاجة الذي يمنع عملاء الذكاء الاصطناعي من القيام بعمل مفيد متعدد الخطوات دون إشراف مستمر.
من الأفضل فهم وكلاء الاستدلال المشبعين في سياق الإستراتيجية والوصول إلى النماذج وقرارات النظام الأساسي وشراكات النظام البيئي.
الغوص العميق
Imbue، المعروفة سابقًا باسم Generally Intelligent، يقودها الرئيس التنفيذي Kanjun Qiu وجمعت أكثر من 200 مليون دولار في عام 2023 بتقييم يقارب مليار دولار، بدعم من المستثمرين بما في ذلك Nvidia. بدلًا من ملاحقة أكبر نموذج ممكن، يركز إمبو على العملاء الذين يفكرون بشكل موثوق ويمكنهم التحقق من عملهم. اشتهرت الشركة بتدريب نموذج مكون من 70 مليار معلمة من الصفر على مجموعة الحوسبة الخاصة بها ونشرت ملاحظات هندسية مفصلة بشكل غير عادي حول التجربة. وتؤكد أبحاثها على المنطق والقوة والأدوات التي تسمح للعملاء بالتحقق من نجاح أفعالهم بالفعل. الهدف على المدى الطويل هو وكلاء الذكاء الاصطناعي الشخصي الذين يمكن للأشخاص الوثوق بهم للتعامل مع المهام التبعية، مع التركيز بشكل واضح على وكالة المستخدم وإمكانية التحقق بدلاً من الأتمتة الغامضة.
البصيرة الفنية
رهان إمبوي هو أن وكلاء الاستدلال يجب أن يكونوا قابلين للتحقق، وليس فقط طلاقة. وهذا يعني إنشاء خطوات وسيطة، وتنفيذ التعليمات البرمجية أو استدعاءات الأدوات، ومراقبة النتائج الحقيقية، والتصحيح الذاتي عند فشل الإجراء - إغلاق الحلقة بدلاً من إنتاج إجابة تبدو معقولة في طلقة واحدة. كان تدريبهم 70B من الصفر يتعلق جزئيًا بالتحكم في المجموعة الكاملة حتى يتمكنوا من التحسين خصيصًا للتفكير الدقيق والقابل للتحقق بدلاً من الاعتماد على نموذج أساسي عام.
إتقان وكلاء التفكير المشبعين
Imbue هو أحد عملاء بناء مختبر الذكاء الاصطناعي الذي يمكنه التفكير والبرمجة والتصرف بقوة كافية ليتم الوثوق به في المهام الحقيقية. وهذا مهم لأن الموثوقية - وليس فقط الذكاء الخام - هي عنق الزجاجة الذي يمنع عملاء الذكاء الاصطناعي من القيام بعمل مفيد متعدد الخطوات دون إشراف مستمر. من الأفضل فهم وكلاء الاستدلال المشبعين في سياق الإستراتيجية والوصول إلى النماذج وقرارات النظام الأساسي وشراكات النظام البيئي. لبناء فهم عميق، يجب التعامل مع وكلاء الاستدلال المشبعين كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تقوم الفرق القوية التي تستخدم وكلاء التفكير غير المتقنين بتقييم استراتيجية البائع وموثوقية خارطة الطريق ومخاطر القفل قبل الالتزام. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
تؤثر خرائط طريق البائع على الميزات التي يمكن لفريقك إنشاءها بعد ذلك. وفي الوقت نفسه، قد تتجاوز إعلانات الإطلاق الاستقرار في سير عمل الإنتاج الحقيقي. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
تؤثر خرائط طريق البائع على الميزات التي يمكن لفريقك إنشاءها بعد ذلك.
تؤثر خرائط طريق البائع على الميزات التي يمكن لفريقك إنشاءها بعد ذلك. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
تؤثر الشروط التجارية وخيارات النشر على التكلفة والمخاطر على المدى الطويل.
تؤثر الشروط التجارية وخيارات النشر على التكلفة والمخاطر على المدى الطويل. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
تعمل حوافز الشركة على تشكيل الإعدادات الافتراضية للمنتج، ووضعية السلامة، والانفتاح.
تعمل حوافز الشركة على تشكيل الإعدادات الافتراضية للمنتج، ووضعية السلامة، والانفتاح. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
يقوم الوكيل بكتابة التعليمات البرمجية، وتشغيل مجموعة الاختبار، وقراءة حالات الفشل، وإصلاح الأخطاء الخاصة به قبل إعادة العمل.
يقوم مساعد البحث بتقسيم الطلب الغامض إلى أسئلة فرعية، ويجمع الأدلة، ويتحقق من كل نتيجة بدلاً من التخمين.
يقوم الوكيل الشخصي بصياغة خطة معقدة متعددة الخطوات والتوفيق بينها، مع تحديد النقاط التي يكون فيها غير متأكد ويحتاج إلى موافقة بشرية.
تسمح الأدوات الداخلية للوكيل بتأكيد ما إذا كان كل إجراء قد غيّر حالة النظام بالفعل، بدلاً من افتراض النجاح.
أنماط التنفيذ
إضفاء الطابع المنطقي على الوكلاء في الممارسة العملية
يقوم الوكيل بكتابة التعليمات البرمجية، وتشغيل مجموعة الاختبار، وقراءة حالات الفشل، وإصلاح الأخطاء الخاصة به قبل إعادة العمل.
يقوم الوكيل بكتابة التعليمات البرمجية، وتشغيل مجموعة الاختبار، وقراءة حالات الفشل، وإصلاح الأخطاء الخاصة به قبل إعادة العمل. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
إضفاء الطابع المنطقي على الوكلاء في الممارسة العملية
يقوم مساعد البحث بتقسيم الطلب الغامض إلى أسئلة فرعية، ويجمع الأدلة، ويتحقق من كل نتيجة بدلاً من التخمين.
يقوم مساعد البحث بتقسيم الطلب الغامض إلى أسئلة فرعية، ويجمع الأدلة، ويتحقق من كل نتيجة بدلاً من التخمين. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
إضفاء الطابع المنطقي على الوكلاء في الممارسة العملية
يقوم الوكيل الشخصي بصياغة خطة معقدة متعددة الخطوات والتوفيق بينها، مع تحديد النقاط التي يكون فيها غير متأكد ويحتاج إلى موافقة بشرية.
يقوم الوكيل الشخصي بصياغة خطة معقدة متعددة الخطوات والتوفيق بينها، مع وضع علامة على النقاط التي تكون فيها غير متأكدة وتحتاج إلى تسجيل خروج بشري. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء مع مرور الوقت.
إضفاء الطابع المنطقي على الوكلاء في الممارسة العملية
تسمح الأدوات الداخلية للوكيل بتأكيد ما إذا كان كل إجراء قد غيّر حالة النظام بالفعل، بدلاً من افتراض النجاح.
تسمح الأدوات الداخلية للوكيل بتأكيد ما إذا كان كل إجراء قد غيّر حالة النظام بالفعل، بدلاً من افتراض النجاح، تحصل الفرق عادةً على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
قد تتجاوز إعلانات الإطلاق الاستقرار في سير عمل الإنتاج الحقيقي.
يمكن أن يؤدي تسعير واجهة برمجة التطبيقات (API) أو تغيرات السياسة إلى كسر الافتراضات بين عشية وضحاها.
يؤدي الاعتماد على بائع واحد إلى زيادة تكاليف الحجز والترحيل.
خارطة طريق التنفيذ
قم بتقييم مقدمي الخدمة باستخدام المهام ومجموعات البيانات الخاصة بك.
قم بتقييم مقدمي الخدمة باستخدام المهام ومجموعات البيانات الخاصة بك. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
راجع الخصوصية والأمان والمصطلحات القانونية قبل التكامل.
راجع الخصوصية والأمان والمصطلحات القانونية قبل التكامل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
احتفظ بخطة احتياطية عبر النماذج أو البائعين.
احتفظ بخطة احتياطية عبر النماذج أو البائعين. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
راقب ملاحظات الإصدار حتى لا تفاجئ التغييرات في خارطة الطريق الفرق.
راقب ملاحظات الإصدار حتى لا تفاجئ التغييرات في خارطة الطريق الفرق. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.