AI টোকেন হল বৃহৎ ভাষা মডেল (LLM) পাঠ্য প্রক্রিয়া করার সময়ের ক্ষুদ্রতম একক। অক্ষর সংখ্যা থেকে আলাদা এবং ভাষা এবং মডেলের উপর নির্ভর করে ভিন্নভাবে গণনা করা হয়।
টোকেনের সংজ্ঞা
টোকেন হল শব্দ, শব্দের অংশ, বিরাম চিহ্ন, প্রতীক ইত্যাদির একক। ইংরেজিতে "Hello" = ১ টোকেন, জাপানিতে "こんにちは" = ২-৩ টোকেন সাধারণ। স্পেস, নতুন লাইনও টোকেন হিসাবে গণনা করা হয়।
টোকেন এবং অক্ষর সংখ্যার মধ্যে পার্থক্য
ইংরেজি: প্রায় ৪ অক্ষর = ১ টোকেন, জাপানি: প্রায় ১.৫-২ অক্ষর = ১ টোকেন, কোড: সিনট্যাক্সের উপর নির্ভর করে পরিবর্তিত। উদাহরণ: "Hello World" (১১ অক্ষর) = ২ টোকেন, "こんにちは世界" (৭ অক্ষর) = ৪-৫ টোকেন।
কেন টোকেন সংখ্যা গুরুত্বপূর্ণ
AI API এর ফি টোকেন সংখ্যার উপর ভিত্তি করে নির্ধারিত হয় (উদাহরণ: GPT-4 হল ১০০০ টোকেনের জন্য $০.০৩)। এছাড়াও, প্রতিটি মডেলের টোকেন সংখ্যা সীমা আছে (GPT-4 8K = ৮১৯২ টোকেন), এবং সীমা অতিক্রম করলে ত্রুটি ঘটবে। দক্ষ প্রম্পট ডিজাইনের জন্য টোকেন সংখ্যা বোঝা অপরিহার্য।
প্রধান AI মডেলের টোকেন সংখ্যা সীমা
GPT-4 (8K): ৮,১৯২ টোকেন, GPT-4 (32K): ৩২,৭৬৮ টোকেন, GPT-4 Turbo: ১২৮,০০০ টোকেন, GPT-3.5 Turbo: ১৬,৩৮৫ টোকেন, Claude 3: ২০০,০০০ টোকেন, Gemini Pro: ৩২,৭৬৮ টোকেন, Gemini Ultra: ১০০,০০০ টোকেন (প্রত্যাশিত)।
প্রধান AI মডেলের মূল্য তুলনা
GPT-4: ইনপুট $০.০৩/১K, আউটপুট $০.০৬/১K, GPT-4 Turbo: ইনপুট $০.০১/১K, আউটপুট $০.০৩/১K, GPT-3.5 Turbo: ইনপুট $০.০০০৫/১K, আউটপুট $০.০০১৫/১K, Claude 3 Opus: ইনপুট $০.০১৫/১K, আউটপুট $০.০৭৫/১K, Claude 3 Sonnet: ইনপুট $০.০০৩/১K, আউটপুট $০.০১৫/১K, Gemini Pro: বিনামূল্যে পরিকল্পনা উপলব্ধ (বিস্তারিতের জন্য অফিসিয়াল রেফারেন্স)।
টোকেনাইজেশনের প্রক্রিয়া
AI মডেল BPE (Byte Pair Encoding) বা WordPiece এর মতো অ্যালগরিদম ব্যবহার করে পাঠ্যকে টোকেনে বিভক্ত করে। ঘন ঘন শব্দ ১ টোকেন, বিরল শব্দ একাধিক টোকেনে বিভক্ত হয়। ইমোজি এবং বিশেষ অক্ষর এক অক্ষরের জন্য একাধিক টোকেন হতে পারে।
ইনপুট টোকেন এবং আউটপুট টোকেন
AI API তে ইনপুট (প্রম্পট) এবং আউটপুট (জেনারেট করা পাঠ্য) এর জন্য ফি আলাদা। সাধারণত, আউটপুট টোকেন বেশি ব্যয়বহুল (উদাহরণ: GPT-4 এ আউটপুট ইনপুটের দ্বিগুণ)। খরচ অপ্টিমাইজেশনের জন্য আউটপুট টোকেন সংখ্যা সীমাবদ্ধতা (max_tokens প্যারামিটার) কার্যকর।
এই টুলের গণনার নির্ভুলতা
এই টুলটি প্রতিটি মডেলের অফিসিয়াল টোকেনাইজারের ক্রিয়াকলাপ অনুকরণ করে, তবে সম্পূর্ণ মিল নিশ্চিত করে না। সঠিক টোকেন সংখ্যার জন্য প্রতিটি API এর অফিসিয়াল টুল (OpenAI এর tiktoken, Anthropic এর Claude Tokenizer ইত্যাদি) দিয়ে যাচাই করুন। অনুমানের জন্য পর্যাপ্ত নির্ভুলতা আছে।