AI tokenid on väikseim ühik, mida Suured Keelemudelid (LLM-id) kasutavad teksti töötlemiseks. Erinevalt tähemärkide arvust varieerub tokenite arvestamine keele ja mudeli järgi.
Tokeni Määratlus
Tokenid on sõnade, sõnaosade, kirjavahemärkide või sümbolite ühikud. Inglise keeles on "Hello" = 1 token; jaapani keeles on "こんにちは" = tavaliselt 2-3 tokenit. Tühikud ja reavahetused loevad samuti tokeniteks.
Erinevus Tokenite ja Tähemärkide Vahel
Inglise keel: ~4 tähemärki = 1 token, Jaapani keel: ~1,5-2 tähemärki = 1 token, Kood: varieerub süntaksi järgi. Näide: "Hello World" (11 tähemärki) = 2 tokenit, "こんにちは世界" (7 tähemärki) = 4-5 tokenit.
Miks on Tokenite Arv Oluline
AI API hinnakujundus põhineb tokenite arvul (nt GPT-4: 0,03 $ 1000 tokeni kohta). Igal mudelil on tokenite limiidid (GPT-4 8K = 8192 tokenit) ja nende ületamine põhjustab vigu. Tokenite arvude mõistmine on oluline tõhusa käsu kujundamise jaoks.
Tokenite Limiidid Peamiste AI Mudelite Järgi
GPT-4 (8K): 8192 tokenit, GPT-4 (32K): 32 768 tokenit, GPT-4 Turbo: 128 000 tokenit, GPT-3.5 Turbo: 16 385 tokenit, Claude 3: 200 000 tokenit, Gemini Pro: 32 768 tokenit, Gemini Ultra: 100 000 tokenit (kavandatud).
Hindade Võrdlus Peamiste AI Mudelite Järgi
GPT-4: sisend 0,03 $/1K, väljund 0,06 $/1K, GPT-4 Turbo: sisend 0,01 $/1K, väljund 0,03 $/1K, GPT-3.5 Turbo: sisend 0,0005 $/1K, väljund 0,0015 $/1K, Claude 3 Opus: sisend 0,015 $/1K, väljund 0,075 $/1K, Claude 3 Sonnet: sisend 0,003 $/1K, väljund 0,015 $/1K, Gemini Pro: tasuta tase saadaval (vaata ametlikke dokumente).
Kuidas Tokeniseerimine Toimib
AI mudelid jagavad teksti tokeniteks, kasutades algoritme nagu BPE (Byte Pair Encoding) või WordPiece. Tavalised sõnad muutuvad 1 tokeniks; haruldased sõnad jagunevad mitmeks tokeniks. Emojid ja erimärgid võivad olla mitu tokenit tähemärgi kohta.
Sisendi Tokenid vs Väljundi Tokenid
AI API-d arvestavad sisendi (käsud) ja väljundi (genereeritud tekst) eest erinevalt. Väljundi tokenid on tavaliselt kallimad (nt GPT-4 väljund maksab 2 korda rohkem kui sisend). Kulude optimeerimiseks piirange väljundi tokeneid max_tokens parameetri abil.
Selle Tööriista Täpsus
See tööriist simuleerib ametlikke tokenisaatoreid iga mudeli jaoks, kuid ei garanteeri täielikku täpsust. Täpse tokenite arvu jaoks kasutage ametlikke tööriistu (OpenAI tiktoken, Anthropic Claude Tokenizer jne). See pakub piisavat täpsust hinnanguliste eesmärkide jaoks.