دليل الأساسيات

الترميز

الترميز هو الخطوة التي تقطع النص إلى أجزاء أصغر تسمى الرموز، وهي الوحدات التي يقرأها نموذج اللغة ويتنبأ بها بالفعل.

نظرة عامة

الترميز هو الخطوة التي تقطع النص إلى أجزاء أصغر تسمى الرموز، وهي الوحدات التي يقرأها نموذج اللغة ويتنبأ بها بالفعل. فهو يشكل التكلفة وحدود السياق بهدوء، وحتى مدى جودة تعامل النموذج مع التهجئة والكلمات النادرة.

يوجد الرمز المميز في مجموعة أدوات الذكاء الاصطناعي الأساسية. عندما تفهمها، يصبح تقييم موضوعات الذكاء الاصطناعي الأخرى ومقارنتها أسهل.

الغوص العميق

قبل أن يرى النموذج النص الخاص بك، يقوم برنامج الرمز المميز بتقسيمه إلى رموز مميزة، والتي عادة ما تكون عبارة عن أجزاء من الكلمات الفرعية بدلاً من كلمات كاملة أو أحرف مفردة. قد تصبح كلمة "التعاسة" "un" أو "السعادة" أو قد تنقسم كلمة "tokenization" إلى "token" و "ization". غالبًا ما يتم تعيين الكلمات الشائعة إلى رمز مميز واحد، بينما تنقسم الكلمات أو الأسماء أو التعليمات البرمجية النادرة إلى عدة كلمات. يتم بعد ذلك تعيين كل رمز مميز إلى رقم معرف يحوله النموذج إلى متجه. وهذا أمر مهم من الناحية العملية لأن النماذج تحتوي على نوافذ سياق ثابتة يتم قياسها بالرموز المميزة، وفاتورة واجهات برمجة التطبيقات لكل رمز مميز، لذا فإن القاعدة العامة الإنجليزية التقريبية تبلغ حوالي 4 أحرف أو 0.75 كلمة لكل رمز مميز. يشرح الترميز أيضًا مراوغات النموذج الكلاسيكي: يعد حساب الحروف أو القيام بالتهجئة الدقيقة أمرًا صعبًا لأن النموذج يرى أجزاءً، وليس أحرفًا فردية.

البصيرة الفنية

تستخدم معظم برامج LLM الحديثة ترميز الكلمات الفرعية مثل Byte Pair Encoding (BPE) أو متغيراته على مستوى البايت. يبدأ BPE من الأحرف ويدمج بشكل متكرر الأزواج المتجاورة الأكثر شيوعًا لإنشاء مفردات ثابتة (غالبًا ما بين 30.000 إلى 100.000+ رمز مميز). وهذا يوازن بين نقيضين: لا يمكن للترميز على مستوى الكلمة التعامل مع الكلمات غير المرئية، في حين أن مستوى الأحرف يجعل التسلسلات طويلة جدًا. تسمح الكلمات الفرعية للنموذج بتمثيل أي سلسلة، بما في ذلك الأخطاء المطبعية والكلمات الجديدة، من خلال تأليف أجزاء معروفة، مع الحفاظ على التسلسلات قصيرة إلى حد معقول.

إتقان الترميز

الترميز هو الخطوة التي تقطع النص إلى أجزاء أصغر تسمى الرموز، وهي الوحدات التي يقرأها نموذج اللغة ويتنبأ بها بالفعل. فهو يشكل التكلفة وحدود السياق بهدوء، وحتى مدى جودة تعامل النموذج مع التهجئة والكلمات النادرة. يوجد الرمز المميز في مجموعة أدوات الذكاء الاصطناعي الأساسية. عندما تفهمها، يصبح تقييم موضوعات الذكاء الاصطناعي الأخرى ومقارنتها أسهل. لبناء فهم عميق، يجب التعامل مع الترميز كنموذج تشغيلي، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تقوم الفرق القوية التي تستخدم الرمز المميز ببناء نماذج مفاهيمية قوية أولاً، ثم تعيين تلك النماذج لقيود الإنتاج الحقيقية. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي الوقت نفسه، قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق.

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت.

يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم.

تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل الترميز

يعد الترميز مجالًا بحثيًا نشطًا على وجه التحديد لأنه يحد من الكفاءة والعدالة. إن اللغات التي يتم تحويلها إلى أجزاء أكثر تكلف أكثر وتستهلك السياق بشكل أسرع، لذا فإن العدالة في تعدد اللغات هي مصدر قلق حقيقي تتم معالجته باستخدام مفردات أفضل وأكثر توازناً. يستكشف الباحثون أيضًا نماذج خالية من الرمز المميز أو على مستوى البايت (مثل ByT5) ويتعلمون الترميز الذي يمكن أن يزيل الخطوة الهشة المضبوطة يدويًا بالكامل. في الوقت الحالي، توقع مفردات أكبر، ورموز مميزة متعددة اللغات أكثر ذكاءً، ووعيًا متزايدًا للمستخدمين بالتسعير القائم على الرمز المميز وميزانية السياق.

التنفيذ في العالم الحقيقي

تتم المحاسبة على تسعير واجهة برمجة التطبيقات (API) لنماذج مثل GPT وClaude لكل رمز مميز للإدخال والإخراج، وبالتالي فإن عدد الرموز المميزة يؤثر بشكل مباشر على التكلفة.

يتم قياس حدود نافذة السياق (على سبيل المثال، 128 ألف أو 200 ألف رمز مميز) بالرموز المميزة، مما يحدد مقدار النص أو التعليمات البرمجية التي يمكنك تضمينها.

يستخدم المطورون الرموز المميزة (مثل tiktoken) لتقدير الحجم الفوري وتقليص المحتوى قبل إرسال الطلبات.

يشرح الترميز سبب صعوبة النماذج في حساب الحروف في كلمة ما أو عكس سلسلة، لأنها ترى أجزاء من الكلمات الفرعية، وليس الأحرف.

أنماط التنفيذ

الترميز في الممارسة العملية

تتم المحاسبة على تسعير واجهة برمجة التطبيقات (API) لنماذج مثل GPT وClaude لكل رمز مميز للإدخال والإخراج، وبالتالي فإن عدد الرموز المميزة يؤثر بشكل مباشر على التكلفة.

تتم محاسبة تسعير واجهة برمجة التطبيقات (API) لنماذج مثل GPT وClaude لكل رمز مميز للمدخلات والمخرجات، لذا فإن أعداد الرموز المميزة تؤثر بشكل مباشر على التكلفة. وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الترميز في الممارسة العملية

يتم قياس حدود نافذة السياق (على سبيل المثال، 128 ألف أو 200 ألف رمز مميز) بالرموز المميزة، مما يحدد مقدار النص أو التعليمات البرمجية التي يمكنك تضمينها.

يتم قياس حدود نافذة السياق (على سبيل المثال، 128 ألف أو 200 ألف رمز مميز) بالرموز المميزة، مما يحدد مقدار النص أو التعليمات البرمجية التي يمكنك تضمينها. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الترميز في الممارسة العملية

يستخدم المطورون الرموز المميزة (مثل tiktoken) لتقدير الحجم الفوري وتقليص المحتوى قبل إرسال الطلبات.

يستخدم المطورون الرموز المميزة (مثل tiktoken) لتقدير الحجم الفوري وتقليص المحتوى قبل إرسال الطلبات، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الترميز في الممارسة العملية

يشرح الترميز سبب صعوبة النماذج في حساب الحروف في كلمة ما أو عكس سلسلة، لأنها ترى أجزاء من الكلمات الفرعية، وليس الأحرف.

يشرح الترميز سبب صعوبة النماذج في حساب الحروف في كلمة أو عكس سلسلة، نظرًا لأنها ترى أجزاء من الكلمات الفرعية، وليس الأحرف، تحصل الفرق عادةً على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.

المخاطر والدرابزين

!

قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا.

!

يمكن أن تبدو المعايير قوية بينما يكون الأداء في العالم الحقيقي غير متساوٍ.

!

غالبًا ما يؤدي تجاهل جودة البيانات وخطط التقييم إلى نتائج هشة.

خارطة طريق التنفيذ

1

ابدأ بتعريف لغة واضحة للنتيجة التي تحتاجها.

ابدأ بتعريف لغة واضحة للنتيجة التي تحتاجها. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

اختر مقياس نجاح واحد وحالة فشل واحدة قبل الاختبار.

اختر مقياس نجاح واحد وحالة فشل واحدة قبل الاختبار. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

قم بتشغيل برنامج تجريبي صغير يحتوي على بيانات تمثيلية، وليس مجموعة تجريبية مصقولة.

قم بتشغيل برنامج تجريبي صغير يحتوي على بيانات تمثيلية، وليس مجموعة تجريبية مصقولة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بالتوثيق حيث يساعد الترميز وأين تكون الطرق الأبسط أفضل.

قم بالتوثيق حيث يساعد الترميز وأين تكون الطرق الأبسط أفضل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف