Token Nedir? Yapay Zekanın İşleyiş Birimi
Token, LLM'lerin metni işlerken kullandığı en küçük birimdir. Bir token bazen bir kelime, bazen bir hece veya bir karakter olabilir. Türkçe'de ortalama 4-6 karakter bir token'a denk gelir.
Alternatif isimler: belirteç, AI token
Kısa Tanım
Token, LLM’lerin metni işlerken kullandığı en küçük birimdir.
ChatGPT, Claude veya Gemini’ye bir cümle yazdığınızda, model bunu önce token’lara böler. Sonra her bir token’ı işler.
Bir Cümlenin Token’lara Bölünmesi
Örnek: “Bugün hava güzel.”
Bu cümle ChatGPT (GPT-4o tokenizer) için yaklaşık 6 token’a karşılık gelir:
[ "Bug", "ün", " hava", " gü", "zel", "." ]
Tokenlar genelde:
- Kısa kelimeler tek token (örn. “the” İngilizce)
- Uzun kelimeler birden fazla (örn. “hipopotam” 3 token)
- Bazı diller daha az verimli (Türkçe gibi)
Tokenizer Türleri
| Tokenizer | Kullanan |
|---|---|
| BPE (Byte Pair Encoding) | GPT, Llama |
| SentencePiece | T5, Gemini |
| Tiktoken | OpenAI ürünleri |
OpenAI’ın tiktoken kütüphanesiyle bir metin için token sayısını hesaplayabilirsiniz:
import tiktoken
enc = tiktoken.encoding_for_model("gpt-4o")
tokens = enc.encode("Bugün hava güzel.")
print(len(tokens)) # 6
Token ve Fiyat
API kullanırken token başına ödeme yaparsınız:
| Model | Input (1K token) | Output (1K token) |
|---|---|---|
| GPT-4o | ~$0.005 | ~$0.015 |
| GPT-5 | ~$0.010 | ~$0.030 |
| Claude 4.7 Sonnet | ~$0.003 | ~$0.015 |
| Claude 4.7 Opus | ~$0.015 | ~$0.075 |
| Gemini 2.5 Pro | ~$0.003 | ~$0.012 |
Fiyatlar Q2 2026 itibariyle, sağlayıcının sayfasından mutlaka güncel kontrol edin.
Türkçe Token Verimsizliği
Türkçe morfolojik bir dildir (eklemeli yapı). Bu, tokenizer’ı zorlar:
| Cümle | İngilizce token | Türkçe token |
|---|---|---|
| ”I love you” / “Seni seviyorum” | 3 | 5 |
| ”Good morning” / “Günaydın” | 2 | 3 |
| ”Thank you for your help” / “Yardımın için teşekkür ederim” | 5 | 9 |
Aynı içerik %40-60 daha pahalı sizin için.
Çözüm Önerileri
- İngilizce prompt + Türkçe çıktı: System prompt İngilizce, yanıt Türkçe iste
- Kısalt: Türkçe’de gereksiz ekleri kullanma
- Caching: Aynı sistem prompt’u tekrarlama, cache aç
Context Window ile İlişki
Context window modelin bir seferde işleyebildiği maksimum token sayısıdır:
| Model | Context window |
|---|---|
| GPT-4o | 128K token |
| GPT-5 | 200K+ token |
| Claude 4.7 | 200K-1M token |
| Gemini 2.5 | 1M token |
200K token ≈ 150 sayfa Türkçe metin (kabaca).
Token Sayısını Sayma
Kabaca tahmin:
- 1 sayfa Türkçe metin ≈ 400-500 kelime ≈ 700-900 token
- 10 sayfalık bir belge ≈ 7000-9000 token
- 1 saatlik podcast transkripti ≈ 6000-8000 kelime ≈ 10.000-14.000 token
İlgili Kavramlar
- LLM — token kullanan modeller
- Context window — token limiti
- Embedding — token’ın vektör temsili
Sonraki Adımlar
- ChatGPT vs Claude Karşılaştırması — token ekonomisi farkları
- Prompt Kontrol Listesi: 7 Adım
Özet
Token, LLM’in metni böldüğü en küçük birimdir. Her şey token üzerinden işler: fiyat, hız, bağlam penceresi. Türkçe kullanırken İngilizce’ye göre %40-60 daha fazla token harcadığınızı unutmayın — bu hem maliyeti hem context window doluluğunu etkiler.