AI tokens zijn de kleinste eenheid die Grote Taalmodellen (LLM's) gebruiken om tekst te verwerken. In tegenstelling tot teken aantal, varieert token telling per taal en model.
Token Definitie
Tokens zijn eenheden van woorden, woorddelen, leestekens of symbolen. In het Engels is "Hello" = 1 token; in het Japans is "こんにちは" = typisch 2-3 tokens. Spaties en regeleinden tellen ook als tokens.
Verschil Tussen Tokens en Tekens
Engels: ~4 tekens = 1 token, Japans: ~1,5-2 tekens = 1 token, Code: varieert per syntaxis. Voorbeeld: "Hello World" (11 tekens) = 2 tokens, "こんにちは世界" (7 tekens) = 4-5 tokens.
Waarom Token Aantal Belangrijk Is
AI API prijzen zijn gebaseerd op token aantal (bijv. GPT-4: $0,03 per 1000 tokens). Elk model heeft token limieten (GPT-4 8K = 8192 tokens), en deze overschrijden veroorzaakt fouten. Het begrijpen van token aantallen is essentieel voor efficiënt prompt ontwerp.
Token Limieten per Grote AI Model
GPT-4 (8K): 8.192 tokens, GPT-4 (32K): 32.768 tokens, GPT-4 Turbo: 128.000 tokens, GPT-3.5 Turbo: 16.385 tokens, Claude 3: 200.000 tokens, Gemini Pro: 32.768 tokens, Gemini Ultra: 100.000 tokens (gepland).
Prijs Vergelijking per Grote AI Model
GPT-4: input $0,03/1K, output $0,06/1K, GPT-4 Turbo: input $0,01/1K, output $0,03/1K, GPT-3.5 Turbo: input $0,0005/1K, output $0,0015/1K, Claude 3 Opus: input $0,015/1K, output $0,075/1K, Claude 3 Sonnet: input $0,003/1K, output $0,015/1K, Gemini Pro: gratis tier beschikbaar (zie officiële docs).
Hoe Tokenisatie Werkt
AI modellen splitsen tekst in tokens met algoritmes zoals BPE (Byte Pair Encoding) of WordPiece. Veel voorkomende woorden worden 1 token; zeldzame woorden splitsen in meerdere tokens. Emoji's en speciale tekens kunnen meerdere tokens per teken zijn.
Input Tokens vs Output Tokens
AI API's rekenen verschillend voor input (prompts) en output (gegenereerde tekst). Output tokens zijn doorgaans duurder (bijv. GPT-4 output kost 2x input). Voor kostenoptimalisatie, beperk output tokens met de max_tokens parameter.
Nauwkeurigheid van Deze Tool
Deze tool simuleert officiële tokenizers voor elk model maar garandeert geen perfecte nauwkeurigheid. Voor precieze token aantallen, gebruik officiële tools (OpenAI's tiktoken, Anthropic's Claude Tokenizer, enz.). Het biedt voldoende nauwkeurigheid voor schattingsdoeleinden.