AI tokeny jsou nejmenší jednotkou používanou velkými jazykovými modely (LLM) ke zpracování textu. Na rozdíl od počtu znaků se počítání tokenů liší podle jazyka a modelu.
Definice tokenu
Tokeny jsou jednotky slov, částí slov, interpunkce nebo symbolů. V angličtině "Hello" = 1 token; v japonštině "こんにちは" = typicky 2-3 tokeny. Mezery a zalomení řádků se také počítají jako tokeny.
Rozdíl mezi tokeny a znaky
Angličtina: ~4 znaky = 1 token, japonština: ~1,5-2 znaky = 1 token, kód: liší se podle syntaxe. Příklad: "Hello World" (11 znaků) = 2 tokeny, "こんにちは世界" (7 znaků) = 4-5 tokenů.
Proč záleží na počtu tokenů
Ceny AI API jsou založeny na počtu tokenů (např. GPT-4: $0.03 za 1000 tokenů). Každý model má limity tokenů (GPT-4 8K = 8192 tokenů) a jejich překročení způsobuje chyby. Pochopení počtu tokenů je nezbytné pro efektivní návrh výzev.
Limity tokenů u hlavních AI modelů
GPT-4 (8K): 8 192 tokenů, GPT-4 (32K): 32 768 tokenů, GPT-4 Turbo: 128 000 tokenů, GPT-3.5 Turbo: 16 385 tokenů, Claude 3: 200 000 tokenů, Gemini Pro: 32 768 tokenů, Gemini Ultra: 100 000 tokenů (plánováno).
Porovnání cen u hlavních AI modelů
GPT-4: vstup $0.03/1K, výstup $0.06/1K, GPT-4 Turbo: vstup $0.01/1K, výstup $0.03/1K, GPT-3.5 Turbo: vstup $0.0005/1K, výstup $0.0015/1K, Claude 3 Opus: vstup $0.015/1K, výstup $0.075/1K, Claude 3 Sonnet: vstup $0.003/1K, výstup $0.015/1K, Gemini Pro: dostupná bezplatná úroveň (viz oficiální dokumentace).
Jak funguje tokenizace
AI modely rozdělují text na tokeny pomocí algoritmů jako BPE (Byte Pair Encoding) nebo WordPiece. Běžná slova se stanou 1 tokenem; vzácná slova se rozdělí na více tokenů. Emotikony a speciální znaky mohou být více tokenů na znak.
Vstupní tokeny vs. výstupní tokeny
AI API účtují různě za vstup (výzvy) a výstup (generovaný text). Výstupní tokeny jsou obvykle dražší (např. výstup GPT-4 stojí 2× více než vstup). Pro optimalizaci nákladů omezte výstupní tokeny pomocí parametru max_tokens.
Přesnost tohoto nástroje
Tento nástroj simuluje oficiální tokenizátory pro každý model, ale nezaručuje dokonalou přesnost. Pro přesný počet tokenů použijte oficiální nástroje (tiktoken od OpenAI, Claude Tokenizer od Anthropic atd.). Poskytuje dostatečnou přesnost pro účely odhadu.