💡 Yapay Zeka Rehberi

RAG (Retrieval-Augmented Generation) Nedir? Teknik Rehber

📅
14 Ekim 2025
⏱️
6 dakika okuma
👁️
603 görüntüleme
 - Blog yazısı görseli

Retrieval-Augmented Generation (RAG), büyük dil modellerinin (LLM) güncel ve alan-spesifik bilgilere erişerek daha doğru yanıtlar üretmesini sağlayan bir mimaridir. Temel fikir: model, yanıt üretmeden önce harici bir bilgi kaynağından ilgili belgeleri geri getirir (retrieval) ve bu içerikleri bağlam olarak kullanarak üretim (generation) yapar. Böylece kapalı kutu ezber yerine doğrulanabilir ve güncel bilgiye dayalı çıktılar elde edilir.


Temel Bileşenler


Belge Hazırlama (Ingestion)

  • Parçalama (chunking): Belgeler 200–800 token aralığında, %10–20 overlap ile bölünür. Amaç; hem bağlamı korumak hem de aramada isabeti yükseltmektir.
  • Öznitelikler: Kaynak URL, başlık, tarih, yazar, erişim hakkı, sürüm gibi metadata eklenir. Filtreleme ve güvenlik için kritiktir.
  • Ön işleme: Dil temizliği, biçim dönüştürme (PDF → metin), tablo/şekil ayıklama, kod bloklarının korunması.


Vektörleştirme (Embeddings)

  • Her parçaya bir embedding vektörü atanır. Bu vektörler semantik benzerliği sayısallaştırır.
  • Çok dilli veri için çok dilli embedding; kod/teknik belge için o alanda iyi performans veren embedding modeli seçilmelidir.


Dizinleme ve Depolama

  • Vektör veritabanı (FAISS, Milvus, pgvector vb.) semantik arama sağlar.
  • Hibrit arama (BM25 + vektör) sık geçen terimleri ve sayısal/anahtar kelime eşleşmelerini güçlendirir.
  • Reranker (isteğe bağlı): İlk bulunan adayları cross-encoder ile yeniden sıralayıp alaka isabetini artırır.


Sorgulama (Retrieval)

  • Kullanıcının sorusu gerekirse sorgu genişletme / yeniden yazma ile iyileştirilir.
  • K adet (genelde 4–10) en alakalı parça çekilir; çok uzun parçalar token bütçesini aşmamak için özetlenebilir.


Üretim (Generation)

  • LLM’e; kullanıcı sorusu + getirilen parçalar + yönergeler verilir.
  • Citations (kaynak gösterimi) için parça kimlikleri korunur; model, her iddiayı ilgili kaynağa bağlayacak şekilde yönlendirilir.


Neden RAG?


  • Halüsinasyon azaltma: Model, ezbere uydurmak yerine somut kaynaklara dayanır.
  • Güncellik: Modeli yeniden eğitmeden (fine-tune) yeni içerikleri sisteme alabilirsiniz.
  • Kontrol edilebilirlik: Kaynak seçimi, güvenlik politikaları ve izlenebilirlik sağlanır.


Tasarım İpuçları


  • Chunk boyutu: Çok küçük parça bağlamı kaybettirir, çok büyük parça alaka isabetini düşürür. 400–600 token çoğu teknik içerik için iyi başlangıçtır.
  • Overlap: Kavramların parça sınırında bölünmesini önler; %10–20 yeterlidir.
  • Metadata filtreleri: Tarih≥YYYY-MM, kategori=“docs”, dil=“tr” gibi filtreler yanlış pozitifleri azaltır.
  • Hibrit arama: Özellikle kısaltmalar, ürün kodları, sayılar içeren kurumsal belgelerde başarıyı belirgin artırır.
  • Reranking: İlk 50 sonucu alıp 5–10 parçaya düşürmek kaliteyi artırır; gecikme (latency) bütçesi ile dengelenmelidir.
  • Prompt tasarımı: “Sadece sağlanan kaynaklara dayan, emin değilsen ‘bulunamadı’ de. Her yanıtın sonunda kaynak kimliklerini listele.” gibi net talimatlar verin.
  • Özetleme katmanı: Çok uzun belgelerde “retrieval → lightweight summarization → generation” boru hattı token maliyetini düşürür.
  • Önbellekleme: Popüler sorgular için retrieval sonuçlarını ve LLM yanıtlarını kısa süreli cache’leyin.


Değerlendirme ve İzleme


  • Objektif metrikler: Recall@K, nDCG, MRR ile retrieval kalitesini ölçün; yanıt kalitesi için faithfulness (kaynağa bağlılık) ve groundedness (alıntı tutarlılığı) kullanın.
  • İnsan denetimi: Kritik akışlarda örneklem bazlı manuel kontrol yapın.
  • Telemetri: Sorgu başına gecikme, token kullanımı, başarısız retrieval oranı, “kaynak bulunamadı” oranı gibi göstergeleri izleyin.


Sık Karşılaşılan Hatalar


  • Güncellenmeyen dizin: Yeni belgeler ingestion hattına giriyor mu? Artık/geri çekilen belgeler kaldırılıyor mu?
  • Zayıf embeddings: Alan-spesifik (hukuk, tıp, kod) içeriğe uygunsuz embedding modeli seçimi.
  • Aşırı K değeri: Gereksiz parça şişmesi; maliyet ve halüsinasyon riskini artırır.
  • Kaynak göstermeme: Güven ve denetlenebilirlik kaybı.
  • Güvenlik: Erişim kontrolü (ACL) retrieval katmanında da uygulanmalı; çok kiracılı ortamlarda zorunludur.


Ne Zaman Fine-Tune, Ne Zaman RAG?


RAG: Bilgi tabanı hızla değişiyor, doğrulanabilir kaynak şart, lisans/kaynak izleri önemliyse.

Fine-tuning: Stil uyarlama, format düzeni, alan jargonu gibi üretim davranışı gerektiğinde. Çoğu senaryoda RAG + hafif fine-tune en iyi dengeyi verir.


Özet: RAG, LLM’leri güvenilir, güncel ve denetlenebilir hale getirmek için pratik ve ölçeklenebilir bir yaklaşımdır. Sağlam bir ingestion hattı, doğru embedding ve arama stratejisi, iyi tasarlanmış promptlar ve düzenli izleme ile yüksek doğrulukta, kaynaklı yanıtlar üretilebilir.

RAG (Retrieval-Augmented Generation) Nedir? Teknik Rehber Yazısını Beğendiniz Mi?

Yapay zeka dünyasından en güncel haberleri kaçırmamak için blog sayfamızı takip edin!

İlgili Blog Yazıları

AI Workflow Otomasyonu: Günlük İşlerinizi Yapay Zeka ile Kolaylaştırmak

Yapay zeka artık yalnızca chatbot’lardan veya içerik üretim araçlarından...

Context Window Yönetimi

Büyük dil modelleri belirli bir “context window” sınırına sahiptir. Yan...

Function Calling: JSON Şema İpuçları

LLM’lerde “function calling / tool calling”, modelin serbest metin yerine ...

← Tüm Blog Yazıları