Az AI tokenek a legkisebb egység, amelyet a Nagy Nyelvi Modellek (LLM-ek) a szöveg feldolgozására használnak. A karakter számmal ellentétben a token számítás nyelvenként és modellenként változik.
Token Meghatározás
A tokenek szavak, szórészek, központozás vagy szimbólumok egységei. Angolul a "Hello" = 1 token; japánul a "こんにちは" = jellemzően 2-3 token. A szóközök és sortörések is tokenként számítanak.
Különbség a Tokenek és Karakterek Között
Angol: ~4 karakter = 1 token, Japán: ~1,5-2 karakter = 1 token, Kód: szintaxistól függően változik. Példa: "Hello World" (11 karakter) = 2 token, "こんにちは世界" (7 karakter) = 4-5 token.
Miért Számít a Token Szám
Az AI API árazás a token számon alapul (pl. GPT-4: 0,03 dollár 1000 tokenre). Minden modellnek vannak token korlátai (GPT-4 8K = 8192 token), és ezek túllépése hibákat okoz. A token számok megértése elengedhetetlen a hatékony prompt tervezéshez.
Token Korlátok Fő AI Modellekben
GPT-4 (8K): 8.192 token, GPT-4 (32K): 32.768 token, GPT-4 Turbo: 128.000 token, GPT-3.5 Turbo: 16.385 token, Claude 3: 200.000 token, Gemini Pro: 32.768 token, Gemini Ultra: 100.000 token (tervezett).
Árösszehasonlítás Fő AI Modellekben
GPT-4: bemenet 0,03 $/1K, kimenet 0,06 $/1K, GPT-4 Turbo: bemenet 0,01 $/1K, kimenet 0,03 $/1K, GPT-3.5 Turbo: bemenet 0,0005 $/1K, kimenet 0,0015 $/1K, Claude 3 Opus: bemenet 0,015 $/1K, kimenet 0,075 $/1K, Claude 3 Sonnet: bemenet 0,003 $/1K, kimenet 0,015 $/1K, Gemini Pro: ingyenes szint elérhető (lásd hivatalos dokumentáció).
Hogyan Működik a Tokenizáció
Az AI modellek a szöveget tokenekre osztják olyan algoritmusokkal, mint a BPE (Byte Pair Encoding) vagy WordPiece. A gyakori szavak 1 tokenné válnak; a ritka szavak több tokenre oszlanak. Az emojik és speciális karakterek több token is lehetnek karakterenként.
Bemenet Tokenek vs Kimenet Tokenek
Az AI API-k eltérően számlázzák a bemenetet (promptokat) és a kimenetet (generált szöveget). A kimenet tokenek általában drágábbak (pl. a GPT-4 kimenet 2-szer annyiba kerül, mint a bemenet). A költségoptimalizáláshoz korlátozza a kimenet tokeneket a max_tokens paraméter használatával.
Ennek az Eszköznek a Pontossága
Ez az eszköz szimulálja a hivatalos tokenizálókat minden modellhez, de nem garantál tökéletes pontosságot. Pontos token számokhoz használja a hivatalos eszközöket (OpenAI tiktoken, Anthropic Claude Tokenizer stb.). Elegendő pontosságot biztosít becslési célokra.