AI टोकन बड़े भाषा मॉडल (LLM) द्वारा पाठ को संसाधित करते समय की सबसे छोटी इकाई है। वर्ण संख्या से अलग है और भाषा और मॉडल के आधार पर अलग तरीके से गिना जाता है।
टोकन की परिभाषा
टोकन शब्द, शब्द के हिस्से, विराम चिह्न, प्रतीक आदि की इकाइयाँ हैं। अंग्रेजी में "Hello" = 1 टोकन, जापानी में "こんにちは" = 2-3 टोकन सामान्य है। स्पेस, नई पंक्ति भी टोकन के रूप में गिने जाते हैं।
टोकन और वर्ण संख्या के बीच अंतर
अंग्रेजी: लगभग 4 वर्ण = 1 टोकन, जापानी: लगभग 1.5-2 वर्ण = 1 टोकन, कोड: सिंटैक्स के आधार पर भिन्न। उदाहरण: "Hello World" (11 वर्ण) = 2 टोकन, "こんにちは世界" (7 वर्ण) = 4-5 टोकन।
टोकन संख्या क्यों महत्वपूर्ण है
AI API के शुल्क टोकन संख्या के आधार पर निर्धारित होते हैं (उदाहरण: GPT-4 1000 टोकन के लिए $0.03 है)। इसके अलावा, प्रत्येक मॉडल की टोकन संख्या सीमा होती है (GPT-4 8K = 8192 टोकन), और सीमा से अधिक होने पर त्रुटि होगी। कुशल प्रॉम्प्ट डिज़ाइन के लिए टोकन संख्या को समझना आवश्यक है।
प्रमुख AI मॉडल की टोकन संख्या सीमाएं
GPT-4 (8K): 8,192 टोकन, GPT-4 (32K): 32,768 टोकन, GPT-4 Turbo: 128,000 टोकन, GPT-3.5 Turbo: 16,385 टोकन, Claude 3: 200,000 टोकन, Gemini Pro: 32,768 टोकन, Gemini Ultra: 100,000 टोकन (अपेक्षित)।
प्रमुख AI मॉडल की मूल्य तुलना
GPT-4: इनपुट $0.03/1K, आउटपुट $0.06/1K, GPT-4 Turbo: इनपुट $0.01/1K, आउटपुट $0.03/1K, GPT-3.5 Turbo: इनपुट $0.0005/1K, आउटपुट $0.0015/1K, Claude 3 Opus: इनपुट $0.015/1K, आउटपुट $0.075/1K, Claude 3 Sonnet: इनपुट $0.003/1K, आउटपुट $0.015/1K, Gemini Pro: मुफ्त योजना उपलब्ध (विवरण के लिए आधिकारिक संदर्भ)।
टोकनाइजेशन की प्रक्रिया
AI मॉडल BPE (Byte Pair Encoding) या WordPiece जैसे एल्गोरिदम का उपयोग करके पाठ को टोकन में विभाजित करते हैं। बार-बार आने वाले शब्द 1 टोकन होते हैं, दुर्लभ शब्द कई टोकन में विभाजित होते हैं। इमोजी और विशेष वर्ण एक वर्ण के लिए कई टोकन हो सकते हैं।
इनपुट टोकन और आउटपुट टोकन
AI API में इनपुट (प्रॉम्प्ट) और आउटपुट (जेनरेट किया गया पाठ) के लिए शुल्क अलग होते हैं। आमतौर पर, आउटपुट टोकन अधिक महंगे होते हैं (उदाहरण: GPT-4 में आउटपुट इनपुट का दोगुना)। लागत अनुकूलन के लिए आउटपुट टोकन संख्या सीमा (max_tokens पैरामीटर) प्रभावी है।
इस उपकरण की गणना सटीकता
यह उपकरण प्रत्येक मॉडल के आधिकारिक टोकनाइज़र के संचालन का अनुकरण करता है, लेकिन पूर्ण मिलान की गारंटी नहीं देता। सटीक टोकन संख्या के लिए प्रत्येक API के आधिकारिक उपकरण (OpenAI का tiktoken, Anthropic का Claude Tokenizer आदि) से पुष्टि करें। अनुमान के लिए पर्याप्त सटीकता है।