Τα AI tokens είναι η μικρότερη μονάδα που χρησιμοποιούν τα Μεγάλα Γλωσσικά Μοντέλα (LLM) για την επεξεργασία κειμένου. Σε αντίθεση με τον αριθμό χαρακτήρων, η καταμέτρηση tokens ποικίλλει ανάλογα με τη γλώσσα και το μοντέλο.
Ορισμός Token
Τα tokens είναι μονάδες λέξεων, τμημάτων λέξεων, σημείων στίξης ή συμβόλων. Στα αγγλικά, "Hello" = 1 token· στα ιαπωνικά, "こんにちは" = συνήθως 2-3 tokens. Τα κενά και οι αλλαγές γραμμής επίσης μετρούν ως tokens.
Διαφορά Μεταξύ Tokens και Χαρακτήρων
Αγγλικά: ~4 χαρακτήρες = 1 token, Ιαπωνικά: ~1,5-2 χαρακτήρες = 1 token, Κώδικας: ποικίλλει ανάλογα με τη σύνταξη. Παράδειγμα: "Hello World" (11 χαρακτήρες) = 2 tokens, "こんにちは世界" (7 χαρακτήρες) = 4-5 tokens.
Γιατί Έχει Σημασία ο Αριθμός των Tokens
Οι τιμές AI API βασίζονται στον αριθμό των tokens (π.χ. GPT-4: 0,03 $ ανά 1000 tokens). Κάθε μοντέλο έχει όρια tokens (GPT-4 8K = 8192 tokens), και η υπέρβασή τους προκαλεί σφάλματα. Η κατανόηση του αριθμού των tokens είναι απαραίτητη για αποτελεσματικό σχεδιασμό προτροπών.
Όρια Tokens ανά Κύρια Μοντέλα AI
GPT-4 (8K): 8.192 tokens, GPT-4 (32K): 32.768 tokens, GPT-4 Turbo: 128.000 tokens, GPT-3.5 Turbo: 16.385 tokens, Claude 3: 200.000 tokens, Gemini Pro: 32.768 tokens, Gemini Ultra: 100.000 tokens (προγραμματισμένο).
Σύγκριση Τιμών ανά Κύρια Μοντέλα AI
GPT-4: είσοδος 0,03 $/1K, έξοδος 0,06 $/1K, GPT-4 Turbo: είσοδος 0,01 $/1K, έξοδος 0,03 $/1K, GPT-3.5 Turbo: είσοδος 0,0005 $/1K, έξοδος 0,0015 $/1K, Claude 3 Opus: είσοδος 0,015 $/1K, έξοδος 0,075 $/1K, Claude 3 Sonnet: είσοδος 0,003 $/1K, έξοδος 0,015 $/1K, Gemini Pro: διαθέσιμο δωρεάν επίπεδο (δείτε επίσημα έγγραφα).
Πώς Λειτουργεί η Tokenization
Τα μοντέλα AI χωρίζουν το κείμενο σε tokens χρησιμοποιώντας αλγόριθμους όπως το BPE (Byte Pair Encoding) ή το WordPiece. Οι κοινές λέξεις γίνονται 1 token· οι σπάνιες λέξεις χωρίζονται σε πολλαπλά tokens. Τα emoji και οι ειδικοί χαρακτήρες μπορεί να είναι πολλαπλά tokens ανά χαρακτήρα.
Tokens Εισόδου vs Tokens Εξόδου
Τα AI APIs χρεώνουν διαφορετικά για είσοδο (προτροπές) και έξοδο (παραγόμενο κείμενο). Τα tokens εξόδου είναι συνήθως πιο ακριβά (π.χ. η έξοδος GPT-4 κοστίζει 2 φορές την είσοδο). Για βελτιστοποίηση κόστους, περιορίστε τα tokens εξόδου χρησιμοποιώντας την παράμετρο max_tokens.
Ακρίβεια Αυτού του Εργαλείου
Αυτό το εργαλείο προσομοιώνει επίσημους tokenizers για κάθε μοντέλο αλλά δεν εγγυάται τέλεια ακρίβεια. Για ακριβή αριθμό tokens, χρησιμοποιήστε επίσημα εργαλεία (tiktoken της OpenAI, Claude Tokenizer της Anthropic κ.λπ.). Παρέχει επαρκή ακρίβεια για σκοπούς εκτίμησης.