AI token eru minnsta einingin sem stór tungumálalíkön (LLM) nota til að vinna texta. Ólíkt stafabili er token talning breytileg eftir tungumáli og líkani.
Token Skilgreining
Token eru einingar orða, hlutar orða, greinarmerki eða tákn. Á ensku er "Hello" = 1 token; á japönsku er "こんにちは" venjulega = 2-3 token. Bil og línuskipti telja líka sem token.
Munur á Token og Stafabilum
Enska: ~4 stafabil = 1 token, Japanska: ~1.5-2 stafabil = 1 token, Kóði: breytilegt eftir setningafræði. Dæmi: "Hello World" (11 stafabil) = 2 token, "こんにちは世界" (7 stafabil) = 4-5 token.
Af hverju skiptir Token Fjöldi máli
AI API verðlagning er byggð á token fjölda (t.d. GPT-4: $0.03 á hverjar 1000 token). Hvert líkan hefur token takmörk (GPT-4 8K = 8192 token), og að fara yfir þau veldur villum. Skilningur á token fjölda er nauðsynlegur fyrir skilvirka kvaðningarhönnun.
Token Takmörk fyrir Helstu AI Líkön
GPT-4 (8K): 8.192 token, GPT-4 (32K): 32.768 token, GPT-4 Turbo: 128.000 token, GPT-3.5 Turbo: 16.385 token, Claude 3: 200.000 token, Gemini Pro: 32.768 token, Gemini Ultra: 100.000 token (áætlað).
Verðsamanburður fyrir Helstu AI Líkön
GPT-4: inntak $0.03/1K, úttak $0.06/1K, GPT-4 Turbo: inntak $0.01/1K, úttak $0.03/1K, GPT-3.5 Turbo: inntak $0.0005/1K, úttak $0.0015/1K, Claude 3 Opus: inntak $0.015/1K, úttak $0.075/1K, Claude 3 Sonnet: inntak $0.003/1K, úttak $0.015/1K, Gemini Pro: ókeypis stig í boði (sjá opinber skjöl).
Hvernig Táknvæðing virkar
AI líkön skipta texta í token með því að nota reiknirit eins og BPE (Byte Pair Encoding) eða WordPiece. Algeng orð verða 1 token; sjaldgæf orð skiptast í mörg token. Tjáningartákn og sérstafir geta verið mörg token á staf.
Inntak Token á móti Úttak Token
AI API rukka mismunandi fyrir inntak (kvaðningar) og úttak (myndaður texti). Úttak token eru venjulega dýrari (t.d. GPT-4 úttak kostar 2x inntak). Til að draga úr kostnaði, takmarkaðu úttak token með því að nota max_tokens færibreytuna.
Nákvæmni þessa tóls
Þetta tól hermir eftir opinberum táknvæðum fyrir hvert líkan en ábyrgist ekki fullkomna nákvæmni. Fyrir nákvæman token fjölda, notaðu opinber tól (tiktoken frá OpenAI, Claude Tokenizer frá Anthropic o.s.frv.). Það veitir fullnægjandi nákvæmni í mats tilgangi.