💡 Yapay Zeka Rehberi

RAG (Retrieval-Augmented Generation) Nedir? Teknik Rehber

📅

14 Ekim 2025

⏱️

7 dakika okuma

👁️

796 görüntüleme

RAG (Retrieval-Augmented Generation) Nedir? Teknik Rehber - Blog yazısı görseli

Retrieval-Augmented Generation (RAG), büyük dil modellerinin (LLM) güncel ve alan-spesifik bilgilere erişerek daha doğru yanıtlar üretmesini sağlayan bir mimaridir. Temel fikir: model, yanıt üretmeden önce harici bir bilgi kaynağından ilgili belgeleri geri getirir (retrieval) ve bu içerikleri bağlam olarak kullanarak üretim (generation) yapar. Böylece kapalı kutu ezber yerine doğrulanabilir ve güncel bilgiye dayalı çıktılar elde edilir.

Temel Bileşenler

Belge Hazırlama (Ingestion)

Parçalama (chunking): Belgeler 200–800 token aralığında, %10–20 overlap ile bölünür. Amaç; hem bağlamı korumak hem de aramada isabeti yükseltmektir.
Öznitelikler: Kaynak URL, başlık, tarih, yazar, erişim hakkı, sürüm gibi metadata eklenir. Filtreleme ve güvenlik için kritiktir.
Ön işleme: Dil temizliği, biçim dönüştürme (PDF → metin), tablo/şekil ayıklama, kod bloklarının korunması.

Vektörleştirme (Embeddings)

Her parçaya bir embedding vektörü atanır. Bu vektörler semantik benzerliği sayısallaştırır.
Çok dilli veri için çok dilli embedding; kod/teknik belge için o alanda iyi performans veren embedding modeli seçilmelidir.

Dizinleme ve Depolama

Vektör veritabanı (FAISS, Milvus, pgvector vb.) semantik arama sağlar.
Hibrit arama (BM25 + vektör) sık geçen terimleri ve sayısal/anahtar kelime eşleşmelerini güçlendirir.
Reranker (isteğe bağlı): İlk bulunan adayları cross-encoder ile yeniden sıralayıp alaka isabetini artırır.

Sorgulama (Retrieval)

Kullanıcının sorusu gerekirse sorgu genişletme / yeniden yazma ile iyileştirilir.
K adet (genelde 4–10) en alakalı parça çekilir; çok uzun parçalar token bütçesini aşmamak için özetlenebilir.

Üretim (Generation)

LLM’e; kullanıcı sorusu + getirilen parçalar + yönergeler verilir.
Citations (kaynak gösterimi) için parça kimlikleri korunur; model, her iddiayı ilgili kaynağa bağlayacak şekilde yönlendirilir.

Neden RAG?

Halüsinasyon azaltma: Model, ezbere uydurmak yerine somut kaynaklara dayanır.
Güncellik: Modeli yeniden eğitmeden (fine-tune) yeni içerikleri sisteme alabilirsiniz.
Kontrol edilebilirlik: Kaynak seçimi, güvenlik politikaları ve izlenebilirlik sağlanır.

Tasarım İpuçları

Chunk boyutu: Çok küçük parça bağlamı kaybettirir, çok büyük parça alaka isabetini düşürür. 400–600 token çoğu teknik içerik için iyi başlangıçtır.
Overlap: Kavramların parça sınırında bölünmesini önler; %10–20 yeterlidir.
Metadata filtreleri: Tarih≥YYYY-MM, kategori=“docs”, dil=“tr” gibi filtreler yanlış pozitifleri azaltır.
Hibrit arama: Özellikle kısaltmalar, ürün kodları, sayılar içeren kurumsal belgelerde başarıyı belirgin artırır.
Reranking: İlk 50 sonucu alıp 5–10 parçaya düşürmek kaliteyi artırır; gecikme (latency) bütçesi ile dengelenmelidir.
Prompt tasarımı: “Sadece sağlanan kaynaklara dayan, emin değilsen ‘bulunamadı’ de. Her yanıtın sonunda kaynak kimliklerini listele.” gibi net talimatlar verin.
Özetleme katmanı: Çok uzun belgelerde “retrieval → lightweight summarization → generation” boru hattı token maliyetini düşürür.
Önbellekleme: Popüler sorgular için retrieval sonuçlarını ve LLM yanıtlarını kısa süreli cache’leyin.

Değerlendirme ve İzleme

Objektif metrikler: Recall@K, nDCG, MRR ile retrieval kalitesini ölçün; yanıt kalitesi için faithfulness (kaynağa bağlılık) ve groundedness (alıntı tutarlılığı) kullanın.
İnsan denetimi: Kritik akışlarda örneklem bazlı manuel kontrol yapın.
Telemetri: Sorgu başına gecikme, token kullanımı, başarısız retrieval oranı, “kaynak bulunamadı” oranı gibi göstergeleri izleyin.

Sık Karşılaşılan Hatalar

Güncellenmeyen dizin: Yeni belgeler ingestion hattına giriyor mu? Artık/geri çekilen belgeler kaldırılıyor mu?
Zayıf embeddings: Alan-spesifik (hukuk, tıp, kod) içeriğe uygunsuz embedding modeli seçimi.
Aşırı K değeri: Gereksiz parça şişmesi; maliyet ve halüsinasyon riskini artırır.
Kaynak göstermeme: Güven ve denetlenebilirlik kaybı.
Güvenlik: Erişim kontrolü (ACL) retrieval katmanında da uygulanmalı; çok kiracılı ortamlarda zorunludur.

Ne Zaman Fine-Tune, Ne Zaman RAG?

RAG: Bilgi tabanı hızla değişiyor, doğrulanabilir kaynak şart, lisans/kaynak izleri önemliyse.

Fine-tuning: Stil uyarlama, format düzeni, alan jargonu gibi üretim davranışı gerektiğinde. Çoğu senaryoda RAG + hafif fine-tune en iyi dengeyi verir.

Özet: RAG, LLM’leri güvenilir, güncel ve denetlenebilir hale getirmek için pratik ve ölçeklenebilir bir yaklaşımdır. Sağlam bir ingestion hattı, doğru embedding ve arama stratejisi, iyi tasarlanmış promptlar ve düzenli izleme ile yüksek doğrulukta, kaynaklı yanıtlar üretilebilir.

İlgili Blog Yazıları

Yapay Zeka ile Kendi Asistanınızı Geliştirin

Siri, Alexa veya Google Asistan gibi araçları hepimiz tanıyoruz. Ancak artık...

Yapay Zeka ile Video Nasıl Oluşturulur? Veo 3, Sora ve Kling AI Karşılaştırması

Yapay zeka, video üretimini sinema stüdyolarının tekelinden çıkararak herk...

Yapay Zekada Hafıza Sistemleri

İnsan zekâsı kadar yapay zekânın da etkili olabilmesi için bir şeye ihtiy...

← Tüm Blog Yazıları