رموز الذكاء الاصطناعي هي أصغر وحدة عند معالجة النماذج اللغوية الكبيرة (LLM) للنص. تختلف عن عدد الأحرف وتُحسب بشكل مختلف حسب اللغة والنموذج.
تعريف الرمز
الرموز هي وحدات من الكلمات أو أجزاء الكلمات أو علامات الترقيم أو الرموز. في الإنجليزية، "Hello" = 1 رمز، وفي اليابانية، "こんにちは" = 2-3 رموز عادةً. تُحسب المسافات والأسطر الجديدة أيضًا كرموز.
الفرق بين الرموز وعدد الأحرف
الإنجليزية: حوالي 4 أحرف = 1 رمز، اليابانية: حوالي 1.5-2 حرف = 1 رمز، الكود: يختلف حسب بناء الجملة. مثال: "Hello World" (11 حرفًا) = 2 رمز، "こんにちは世界" (7 أحرف) = 4-5 رموز.
لماذا عدد الرموز مهم
تحدد رسوم AI API بناءً على عدد الرموز (مثال: GPT-4 هو 0.03 دولار لكل 1000 رمز). أيضًا، كل نموذج له حد لعدد الرموز (GPT-4 8K = 8192 رمزًا)، وإذا تجاوز الحد، سيحدث خطأ. فهم عدد الرموز ضروري لتصميم مطالبات فعالة.
حدود عدد الرموز للنماذج الرئيسية للذكاء الاصطناعي
GPT-4 (8K): 8,192 رمز، GPT-4 (32K): 32,768 رمز، GPT-4 Turbo: 128,000 رمز، GPT-3.5 Turbo: 16,385 رمز، Claude 3: 200,000 رمز، Gemini Pro: 32,768 رمز، Gemini Ultra: 100,000 رمز (متوقع).
مقارنة أسعار نماذج الذكاء الاصطناعي الرئيسية
GPT-4: إدخال 0.03 دولار/1K، إخراج 0.06 دولار/1K، GPT-4 Turbo: إدخال 0.01 دولار/1K، إخراج 0.03 دولار/1K، GPT-3.5 Turbo: إدخال 0.0005 دولار/1K، إخراج 0.0015 دولار/1K، Claude 3 Opus: إدخال 0.015 دولار/1K، إخراج 0.075 دولار/1K، Claude 3 Sonnet: إدخال 0.003 دولار/1K، إخراج 0.015 دولار/1K، Gemini Pro: خطة مجانية متاحة (راجع الموقع الرسمي للتفاصيل).
آلية الترميز
تقسم نماذج الذكاء الاصطناعي النص إلى رموز باستخدام خوارزميات مثل BPE (Byte Pair Encoding) أو WordPiece. الكلمات الشائعة هي 1 رمز، والكلمات النادرة تنقسم إلى رموز متعددة. قد تصبح الرموز التعبيرية والأحرف الخاصة رموزًا متعددة لحرف واحد.
رموز الإدخال ورموز الإخراج
في AI API، تختلف الرسوم بين الإدخال (المطالبة) والإخراج (النص المُولَّد). عادةً، رموز الإخراج أغلى (مثال: إخراج GPT-4 ضعف الإدخال). لتحسين التكلفة، يكون تحديد عدد رموز الإخراج (معامل max_tokens) فعالاً.
دقة حساب هذه الأداة
تحاكي هذه الأداة عمل المُرمِّز الرسمي لكل نموذج، لكنها لا تضمن التطابق الكامل. للحصول على عدد الرموز الدقيق، يرجى التحقق باستخدام الأدوات الرسمية لكل API (tiktoken من OpenAI، Claude Tokenizer من Anthropic، إلخ). الدقة كافية للتقدير.