AI marķieri ir mazākā vienība, ko Lieli Valodu Modeļi (LLM) izmanto teksta apstrādei. Atšķirībā no rakstzīmju skaita, marķieru skaitīšana atšķiras atkarībā no valodas un modeļa.
Marķiera Definīcija
Marķieri ir vārdu, vārdu daļu, pieturzīmju vai simbolu vienības. Angļu valodā "Hello" = 1 marķieris; japāņu valodā "こんにちは" = parasti 2-3 marķieri. Atstarpes un rindiņu pārtraukumi arī tiek skaitīti kā marķieri.
Atšķirība Starp Marķieriem un Rakstzīmēm
Angļu valoda: ~4 rakstzīmes = 1 marķieris, Japāņu valoda: ~1,5-2 rakstzīmes = 1 marķieris, Kods: atšķiras atkarībā no sintakses. Piemērs: "Hello World" (11 rakstzīmes) = 2 marķieri, "こんにちは世界" (7 rakstzīmes) = 4-5 marķieri.
Kāpēc Marķieru Skaits Ir Svarīgs
AI API cenas balstās uz marķieru skaitu (piem., GPT-4: 0,03 $ par 1000 marķieriem). Katram modelim ir marķieru limiti (GPT-4 8K = 8192 marķieri), un to pārsniegšana izraisa kļūdas. Marķieru skaita izpratne ir būtiska efektīvam uzvedņu dizainam.
Marķieru Limiti Galvenajiem AI Modeļiem
GPT-4 (8K): 8192 marķieri, GPT-4 (32K): 32 768 marķieri, GPT-4 Turbo: 128 000 marķieri, GPT-3.5 Turbo: 16 385 marķieri, Claude 3: 200 000 marķieri, Gemini Pro: 32 768 marķieri, Gemini Ultra: 100 000 marķieri (plānots).
Cenu Salīdzinājums Galvenajiem AI Modeļiem
GPT-4: ievade 0,03 $/1K, izvade 0,06 $/1K, GPT-4 Turbo: ievade 0,01 $/1K, izvade 0,03 $/1K, GPT-3.5 Turbo: ievade 0,0005 $/1K, izvade 0,0015 $/1K, Claude 3 Opus: ievade 0,015 $/1K, izvade 0,075 $/1K, Claude 3 Sonnet: ievade 0,003 $/1K, izvade 0,015 $/1K, Gemini Pro: pieejams bezmaksas līmenis (skatīt oficiālos dokumentus).
Kā Darbojas Tokenizācija
AI modeļi sadala tekstu marķieros, izmantojot algoritmus, piemēram, BPE (Byte Pair Encoding) vai WordPiece. Izplatīti vārdi kļūst par 1 marķieri; reti vārdi tiek sadalīti vairākos marķieros. Emocijzīmes un īpašās rakstzīmes var būt vairāki marķieri uz vienu rakstzīmi.
Ievades Marķieri pret Izvades Marķieriem
AI API atšķirīgi maksā par ievadi (uzvednes) un izvadi (ģenerēto tekstu). Izvades marķieri parasti ir dārgāki (piem., GPT-4 izvade maksā 2 reizes vairāk nekā ievade). Izmaksu optimizācijai ierobežojiet izvades marķierus, izmantojot max_tokens parametru.
Šī Rīka Precizitāte
Šis rīks simulē oficiālos tokenizatorus katram modelim, bet negarantē pilnīgu precizitāti. Tas nodrošina pietiekamu precizitāti novērtējuma mērķiem, bet precīzam marķieru skaitam izmantojiet oficiālos rīkus (OpenAI tiktoken, Anthropic Claude Tokenizer u.c.). Neatbilstības var rasties īpaši ar speciālām rakstzīmēm un emocijzīmēm.