💡 Yapay Zeka Rehberi

Context Window Yönetimi

📅

20 Ekim 2025

⏱️

5 dakika okuma

👁️

1017 görüntüleme

Context Window Yönetimi - Blog yazısı görseli

Büyük dil modelleri belirli bir “context window” sınırına sahiptir. Yani aynı anda yalnızca belli miktarda metni “hatırlayabilirler”. Bu sınırı verimli kullanmak, modelin yanıt kalitesini korurken gereksiz token tüketimini azaltmanın anahtarıdır.

Context Window Nedir?

Her dil modeli, bir konuşma ya da belge içinde belirli sayıda token’ı aynı anda işleyebilir.

Bu sınır, modelin “çalışma belleği” gibidir.

Örneğin GPT-4-turbo’nun 128K token’lık penceresi vardır; bu yaklaşık 300 sayfalık bir kitaba denk gelir.

Ancak bu sayı sonsuz değildir.

Context window dolduğunda model eski verileri “unutmaya” başlar veya yeni gelenleri keser.

Bu nedenle, context yönetimi yalnızca kapasite meselesi değil, verimlilik meselesidir.

Token Nedir ve Neden Önemlidir?

Bir token, kelimenin tamamı değil, genellikle bir kelime parçasıdır.

Örneğin “bilgisayar” kelimesi 2 veya 3 tokene bölünebilir.

Dil modelleri her token’ı ayrı ayrı işler; dolayısıyla uzun metinler yüksek maliyet ve daha fazla işlem gücü demektir.

Bu yüzden “token tasarrufu”, hem performans hem ekonomik verimlilik açısından kritiktir.

Kısaca:

Ne kadar az token, o kadar hızlı ve düşük maliyetli işlem.

Context Window Neden Dolup Taşar?

Birçok kullanıcı farkında olmadan modeli gereksiz yük altında bırakır.

Bunun sebepleri genellikle:

Aynı bilgiyi tekrar tekrar göndermek
Uzun geçmiş konuşmaları korumak
Gereksiz açıklamalar veya biçimlendirmeler eklemek
Kod bloklarını yorumlamadan aynen iletmek

Sonuçta model, gereksiz token’larla dolu bir pencerede anlamı kaybeder.

Etkili Context Yönetiminin Faydaları

İyi yönetilmiş bir context:

Modelin “odaklanmasını” artırır.
Yanıt süresini kısaltır.
Token maliyetini düşürür.
Tutarlılığı korur (model gereksiz bilgiden etkilenmez).

Kısacası, context yönetimi kalite, hız ve maliyet üçgeninde denge sağlar.

Token Tasarrufu için Pratik Yöntemler

Gereksiz Geçmişi Temizle

Modelin önceki yanıtlarını sürekli taşımak yerine, sadece gerekli bölümleri tut.

Örneğin:

Önceki konuşmadan yalnızca son 2–3 adımı dahil et.

Bu sayede modelin hafızası dolmadan, bağlam korunur.

Bilgiyi Özetle

Uzun belgeleri olduğu gibi göndermek yerine, özetle veya madde madde sıkıştır.

Örneğin bir raporu “500 kelime” yerine “ana 5 bulgu” olarak iletmek yeterlidir.

Anahtar Bilgileri Ayıkla

Modelin gerçekten ihtiyaç duyduğu kısmı belirle.

“Ne bilmesi gerekiyor?” sorusunu sor ve yalnızca o bölümü dahil et.

Kısa ve Anlamlı Promptlar

Kelimeleri değil, anlamı taşıyan kısa ifadeleri kullan.

Örneğin:

❌ “Şimdi senden rica ediyorum, lütfen aşağıdaki metni değerlendir.”

✅ “Aşağıdaki metni değerlendir.”

Bu küçük farklar binlerce token tasarrufu sağlar.

Sistem Mesajlarını Akıllıca Kullan

Birçok API çağrısında veya sohbet yapısında “system message” (sabit yönlendirme) kullanılır.

Bu mesaj her seferinde modele gönderilir, dolayısıyla token tüketir.

Bunun yerine:

Sabit yönergeleri kısa tut.
Gereksiz örnekleri sistem mesajına ekleme.
Tekrarlanan tanımları kullanıcı mesajlarına değil, sistem tarafına taşı.

Context Penceresini Bölmek

Uzun belgelerle çalışırken tüm içeriği tek seferde göndermek verimsizdir.

Bunun yerine:

Belgeyi mantıksal parçalara ayır.
Her parçada embedding veya özetleme yap.
Sadece ilgili parçayı sorgu sırasında modele ver.

Bu yöntem, RAG (Retrieval-Augmented Generation) yaklaşımının da temelini oluşturur.

Sliding Window Stratejisi

Bir başka etkili yöntem, kayan pencere (sliding window) tekniğidir.

Burada context, dinamik olarak güncellenir:

Yeni bilgiler geldikçe eski, önemsiz bölümler çıkarılır.

Bu teknik özellikle chatbot, analiz veya belge tabanlı uygulamalarda yüksek verimlilik sağlar.

Embedding ile Context Filtreleme

Büyük verilerle çalışan sistemlerde, embedding temelli filtreleme ile sadece ilgili bölümler alınabilir.

Modelin “tüm” veriyi değil, “ilgili” veriyi okuması sağlanır.

Bu, context penceresinin dolmasını engeller.

Örnek akış:

Kullanıcı sorgusu embedding’e dönüştürülür.
Vektör veritabanında en yakın belgeler aranır.
Sadece o belgeler context’e eklenir.

Sonuç: Daha az token, daha yüksek doğruluk.

Biçimlendirme (Formatting) Maliyetini Azalt

Markdown, JSON, HTML gibi biçimler çok sayıda sembol ve karakter içerir.

Bu semboller token sayısını artırır.

Örneğin uzun kod bloklarını veya etiketleri minimize etmek, token tüketimini ciddi biçimde azaltır.

Bir ipucu:

Kodla çalışıyorsan, sadece “ilgili fonksiyonu” veya “hata bölümünü” gönder; tüm dosyayı değil.

Prompt Zincirlerinde (Chained Prompts) Dikkat

Birçok workflow, birden fazla model çağrısı içerir.

Her çağrıda context’in tamamını taşımak yerine, özet geçiş kullan:

Örneğin:

İlk prompt’tan yalnızca 1 paragraf özetini al ve ikinciye aktar.

Bu, çok adımlı sistemlerde token tasarrufunun temel yöntemidir.

Ölç ve Optimize Et

Context yönetimi sezgiyle değil, ölçümle yapılır.

OpenAI API veya diğer LLM sağlayıcıları, her çağrının token sayısını verir.

Bu sayılarla analiz yaparak:

Ortalama context boyutunu
Token başına maliyeti
Yanıt doğruluğunu

karşılaştırabilir ve optimum dengeyi bulabilirsin.

Gelecek: Dinamik Context Yönetimi

Yeni modeller, context yönetimini artık otomatikleştiriyor.

“Dynamic context trimming” adı verilen tekniklerle model, hangi bilginin önemli olduğunu kendisi seçebiliyor.

Ayrıca persistent memory (kalıcı bellek) kavramı sayesinde, önemli bilgiler ayrı bir depoda saklanabiliyor.

Bu gelişmeler, context window sınırlamasını yavaş yavaş tarihe karıştıracak.

Sonuç

Context window, bir LLM’in sınırlarını belirleyen görünmez duvardır.

Ancak doğru yönetildiğinde, bu sınır performans engeli olmaktan çıkar; verimlilik aracına dönüşür.

Unutulmaması gereken nokta şudur:

“Akıllı context yönetimi, akıllı prompt’tan daha değerlidir.”

İlgili Blog Yazıları

AI Prompt Engineering: Daha İyi Sonuçlar İçin Prompt Sanatı

Yapay zekâ ile çalışırken verdiğimiz yönergeler yani promptlar, aldığı...

Zero-shot vs Few-shot: Örneklerle LLM Performansını Artırma

Büyük dil modelleri (LLM), her geçen gün daha karmaşık görevleri yerine g...

Yapay Zekada Hafıza Sistemleri

İnsan zekâsı kadar yapay zekânın da etkili olabilmesi için bir şeye ihtiy...

← Tüm Blog Yazıları