İçeriğe geç
Sözlük

Token Nedir? Yapay Zekanın İşleyiş Birimi

Token, LLM'lerin metni işlerken kullandığı en küçük birimdir. Bir token bazen bir kelime, bazen bir hece veya bir karakter olabilir. Türkçe'de ortalama 4-6 karakter bir token'a denk gelir.

Alternatif isimler: belirteç, AI token

Bir cümlenin token'lara bölündüğünü gösteren soyut görsel

Kısa Tanım

Token, LLM’lerin metni işlerken kullandığı en küçük birimdir.

ChatGPT, Claude veya Gemini’ye bir cümle yazdığınızda, model bunu önce token’lara böler. Sonra her bir token’ı işler.

Bir Cümlenin Token’lara Bölünmesi

Örnek: “Bugün hava güzel.”

Bu cümle ChatGPT (GPT-4o tokenizer) için yaklaşık 6 token’a karşılık gelir:

[ "Bug", "ün", " hava", " gü", "zel", "." ]

Tokenlar genelde:

  • Kısa kelimeler tek token (örn. “the” İngilizce)
  • Uzun kelimeler birden fazla (örn. “hipopotam” 3 token)
  • Bazı diller daha az verimli (Türkçe gibi)

Tokenizer Türleri

TokenizerKullanan
BPE (Byte Pair Encoding)GPT, Llama
SentencePieceT5, Gemini
TiktokenOpenAI ürünleri

OpenAI’ın tiktoken kütüphanesiyle bir metin için token sayısını hesaplayabilirsiniz:

import tiktoken
enc = tiktoken.encoding_for_model("gpt-4o")
tokens = enc.encode("Bugün hava güzel.")
print(len(tokens))  # 6

Token ve Fiyat

API kullanırken token başına ödeme yaparsınız:

ModelInput (1K token)Output (1K token)
GPT-4o~$0.005~$0.015
GPT-5~$0.010~$0.030
Claude 4.7 Sonnet~$0.003~$0.015
Claude 4.7 Opus~$0.015~$0.075
Gemini 2.5 Pro~$0.003~$0.012

Fiyatlar Q2 2026 itibariyle, sağlayıcının sayfasından mutlaka güncel kontrol edin.

Türkçe Token Verimsizliği

Türkçe morfolojik bir dildir (eklemeli yapı). Bu, tokenizer’ı zorlar:

Cümleİngilizce tokenTürkçe token
”I love you” / “Seni seviyorum”35
”Good morning” / “Günaydın”23
”Thank you for your help” / “Yardımın için teşekkür ederim”59

Aynı içerik %40-60 daha pahalı sizin için.

Çözüm Önerileri

  1. İngilizce prompt + Türkçe çıktı: System prompt İngilizce, yanıt Türkçe iste
  2. Kısalt: Türkçe’de gereksiz ekleri kullanma
  3. Caching: Aynı sistem prompt’u tekrarlama, cache aç

Context Window ile İlişki

Context window modelin bir seferde işleyebildiği maksimum token sayısıdır:

ModelContext window
GPT-4o128K token
GPT-5200K+ token
Claude 4.7200K-1M token
Gemini 2.51M token

200K token ≈ 150 sayfa Türkçe metin (kabaca).

Token Sayısını Sayma

Kabaca tahmin:

  • 1 sayfa Türkçe metin ≈ 400-500 kelime ≈ 700-900 token
  • 10 sayfalık bir belge ≈ 7000-9000 token
  • 1 saatlik podcast transkripti ≈ 6000-8000 kelime ≈ 10.000-14.000 token

İlgili Kavramlar

Sonraki Adımlar

Özet

Token, LLM’in metni böldüğü en küçük birimdir. Her şey token üzerinden işler: fiyat, hız, bağlam penceresi. Türkçe kullanırken İngilizce’ye göre %40-60 daha fazla token harcadığınızı unutmayın — bu hem maliyeti hem context window doluluğunu etkiler.

Paylaş: