AI tokenları, büyük dil modelleri (LLM) metin işlerken en küçük birimdir. Karakter sayısından farklıdır ve dile ve modele göre farklı şekilde sayılır.
Token Tanımı
Tokenlar kelimeler, kelime parçaları, noktalama işaretleri, semboller vb. birimlerdir. İngilizce'de "Hello" = 1 token, Japonca'da "こんにちは" = 2-3 token geneldir. Boşluklar, yeni satırlar da token olarak sayılır.
Token ve Karakter Sayısı Arasındaki Fark
İngilizce: yaklaşık 4 karakter = 1 token, Japonca: yaklaşık 1.5-2 karakter = 1 token, Kod: sözdizimine göre değişir. Örnek: "Hello World" (11 karakter) = 2 token, "こんにちは世界" (7 karakter) = 4-5 token.
Token Sayısı Neden Önemli
AI API ücretleri token sayısına göre belirlenir (örnek: GPT-4, 1000 token için $0.03'tür). Ayrıca, her modelin token sayısı sınırı vardır (GPT-4 8K = 8192 token), ve sınırı aşmak hataya neden olur. Verimli prompt tasarımı için token sayısını anlamak gereklidir.
Başlıca AI Modellerinin Token Sayısı Sınırları
GPT-4 (8K): 8,192 token, GPT-4 (32K): 32,768 token, GPT-4 Turbo: 128,000 token, GPT-3.5 Turbo: 16,385 token, Claude 3: 200,000 token, Gemini Pro: 32,768 token, Gemini Ultra: 100,000 token (beklenen).
Başlıca AI Modellerinin Fiyat Karşılaştırması
GPT-4: girdi $0.03/1K, çıktı $0.06/1K, GPT-4 Turbo: girdi $0.01/1K, çıktı $0.03/1K, GPT-3.5 Turbo: girdi $0.0005/1K, çıktı $0.0015/1K, Claude 3 Opus: girdi $0.015/1K, çıktı $0.075/1K, Claude 3 Sonnet: girdi $0.003/1K, çıktı $0.015/1K, Gemini Pro: ücretsiz plan mevcut (ayrıntılar için resmi referansa bakın).
Tokenizasyon Mekanizması
AI modelleri, BPE (Byte Pair Encoding) veya WordPiece gibi algoritmaları kullanarak metni tokenlara böler. Sık kullanılan kelimeler 1 token, nadir kelimeler birden fazla tokena bölünür. Emoji ve özel karakterler tek bir karakter için birden fazla token olabilir.
Girdi Tokenları ve Çıktı Tokenları
AI API'de, girdi (prompt) ve çıktı (oluşturulan metin) için ücretler farklıdır. Genellikle, çıktı tokenları daha pahalıdır (örnek: GPT-4'te çıktı girdinin 2 katıdır). Maliyet optimizasyonu için çıktı token sayısı sınırlaması (max_tokens parametresi) etkilidir.
Bu Aracın Hesaplama Doğruluğu
Bu araç, her modelin resmi tokenizer'ının çalışmasını taklit eder, ancak tam eşleşmeyi garanti etmez. Kesin token sayısı için her API'nin resmi araçlarıyla (OpenAI'nin tiktoken'i, Anthropic'in Claude Tokenizer'ı vb.) doğrulayın. Tahmin için yeterli doğruluk vardır.