Tokenii AI sunt cea mai mică unitate folosită de Modelele de Limbaj Mari (LLM) pentru a procesa textul. Spre deosebire de numărul de caractere, numărarea tokenilor variază în funcție de limbă și model.
Definiția Tokenului
Tokenii sunt unități de cuvinte, părți de cuvinte, punctuație sau simboluri. În engleză, "Hello" = 1 token; în japoneză, "こんにちは" = de obicei 2-3 tokeni. Spațiile și întreruperile de rând contează și ele ca tokeni.
Diferența Între Tokeni și Caractere
Engleză: ~4 caractere = 1 token, Japoneză: ~1,5-2 caractere = 1 token, Cod: variază în funcție de sintaxă. Exemplu: "Hello World" (11 caractere) = 2 tokeni, "こんにちは世界" (7 caractere) = 4-5 tokeni.
De Ce Contează Numărul de Tokeni
Prețurile API AI se bazează pe numărul de tokeni (de ex. GPT-4: 0,03 $ per 1000 tokeni). Fiecare model are limite de tokeni (GPT-4 8K = 8192 tokeni), iar depășirea acestora cauzează erori. Înțelegerea numărului de tokeni este esențială pentru proiectarea eficientă a prompturilor.
Limitele de Tokeni pentru Modele AI Majore
GPT-4 (8K): 8.192 tokeni, GPT-4 (32K): 32.768 tokeni, GPT-4 Turbo: 128.000 tokeni, GPT-3.5 Turbo: 16.385 tokeni, Claude 3: 200.000 tokeni, Gemini Pro: 32.768 tokeni, Gemini Ultra: 100.000 tokeni (planificat).
Compararea Prețurilor pentru Modele AI Majore
GPT-4: intrare 0,03 $/1K, ieșire 0,06 $/1K, GPT-4 Turbo: intrare 0,01 $/1K, ieșire 0,03 $/1K, GPT-3.5 Turbo: intrare 0,0005 $/1K, ieșire 0,0015 $/1K, Claude 3 Opus: intrare 0,015 $/1K, ieșire 0,075 $/1K, Claude 3 Sonnet: intrare 0,003 $/1K, ieșire 0,015 $/1K, Gemini Pro: nivel gratuit disponibil (vezi documentația oficială).
Cum Funcționează Tokenizarea
Modelele AI împart textul în tokeni folosind algoritmi precum BPE (Byte Pair Encoding) sau WordPiece. Cuvintele comune devin 1 token; cuvintele rare se împart în mai mulți tokeni. Emoji-urile și caracterele speciale pot fi mai mulți tokeni per caracter.
Tokeni de Intrare vs Tokeni de Ieșire
API-urile AI taxează diferit pentru intrare (prompturi) și ieșire (text generat). Tokenii de ieșire sunt de obicei mai scumpi (de ex. ieșirea GPT-4 costă de 2 ori mai mult decât intrarea). Pentru optimizarea costurilor, limitați tokenii de ieșire folosind parametrul max_tokens.
Acuratețea Acestui Instrument
Acest instrument simulează tokenizatoarele oficiale pentru fiecare model, dar nu garantează acuratețe perfectă. Pentru număr precis de tokeni, folosiți instrumentele oficiale (tiktoken de la OpenAI, Claude Tokenizer de la Anthropic etc.). Oferă acuratețe suficientă pentru scopuri de estimare.