AI tokens er den mindste enhed som Large Language Models (LLM'er) bruger til at behandle tekst. I modsætning til tegn-antal varierer token-tælling efter sprog og model.
Token Definition
Tokens er enheder af ord, dele af ord, tegnsætning eller symboler. På engelsk er "Hello" = 1 token; på japansk er "こんにちは" typisk = 2-3 tokens. Mellemrum og linjeskift tæller også som tokens.
Forskel mellem Tokens og Tegn
Engelsk: ~4 tegn = 1 token, Japansk: ~1.5-2 tegn = 1 token, Kode: varierer efter syntaks. Eksempel: "Hello World" (11 tegn) = 2 tokens, "こんにちは世界" (7 tegn) = 4-5 tokens.
Hvorfor Token-antal er Vigtigt
AI API-priser er baseret på token-antal (f.eks. GPT-4: $0.03 pr. 1000 tokens). Hver model har token-grænser (GPT-4 8K = 8192 tokens), og overskridelse forårsager fejl. Forståelse af token-antal er essentielt for effektivt prompt-design.
Token-grænser for Større AI-modeller
GPT-4 (8K): 8.192 tokens, GPT-4 (32K): 32.768 tokens, GPT-4 Turbo: 128.000 tokens, GPT-3.5 Turbo: 16.385 tokens, Claude 3: 200.000 tokens, Gemini Pro: 32.768 tokens, Gemini Ultra: 100.000 tokens (planlagt).
Prissammenligning for Større AI-modeller
GPT-4: input $0.03/1K, output $0.06/1K, GPT-4 Turbo: input $0.01/1K, output $0.03/1K, GPT-3.5 Turbo: input $0.0005/1K, output $0.0015/1K, Claude 3 Opus: input $0.015/1K, output $0.075/1K, Claude 3 Sonnet: input $0.003/1K, output $0.015/1K, Gemini Pro: gratis niveau tilgængeligt (se officielle dokumenter).
Hvordan Tokenisering Fungerer
AI-modeller opdeler tekst i tokens ved hjælp af algoritmer som BPE (Byte Pair Encoding) eller WordPiece. Almindelige ord bliver til 1 token; sjældne ord opdeles i flere tokens. Emojis og specialtegn kan være flere tokens pr. tegn.
Input Tokens vs Output Tokens
AI API'er opkræver forskelligt for input (prompts) og output (genereret tekst). Output tokens er typisk dyrere (f.eks. GPT-4 output koster 2x input). For omkostningsoptimering, begræns output tokens ved brug af max_tokens parameteren.
Nøjagtighed af Dette Værktøj
Dette værktøj simulerer officielle tokenizers for hver model, men garanterer ikke perfekt nøjagtighed. For præcise token-antal, brug officielle værktøjer (OpenAI's tiktoken, Anthropic's Claude Tokenizer osv.). Det giver tilstrækkelig nøjagtighed til estimeringsformål.