💡 Yapay Zeka Rehberi

LLM Değerlendirme: Metrikler ve İzleme

📅
15 Ekim 2025
⏱️
4 dakika okuma
👁️
1653 görüntüleme
 - Blog yazısı görseli

Büyük dil modellerini (LLM) üretime almak, yalnızca “iyi cevap veriyor mu?” sorusuyla bitmez. Doğruluk, güvenlik, maliyet, gecikme ve sürdürülebilir kalite için çok katmanlı bir değerlendirme ve izleme stratejisi gerekir. Aşağıda, üretime yönelik pratik ve hatasız bir çerçeve bulacaksınız.


Neden LLM değerlendirmesi farklı?

Klasik yazılımda doğruluk çoğu zaman deterministiktir; LLM’lerde ise olası ve çeşitli çıktılar vardır. Bu nedenle:

  • Çoklu ölçüt gerekir (doğruluk + güvenlik + kullanıcı deneyimi).
  • Görev-özel alt metrikler kaçınılmazdır (Soru-Cevap ≠ Özetleme).
  • İnsan değerlendirmesi hâlâ kritik rol oynar.


Offline (çevrimdışı) otomatik metrikler

Üretime çıkmadan önce, sabit bir “altın veri seti” üzerinde tekrarlanabilir testler yapın.

Görev-özel metrikler

  • Soru-Cevap / Bilgi çekme: Exact Match (EM), F1 (token tabanlı hassasiyet/duyarlılık dengesi).
  • Sınıflandırma/Etiketleme: Accuracy, Precision/Recall, F1, macro/micro ağırlıklar.
  • Özetleme/Serbest üretim: ROUGE (n-gram örtüşmesi), ayrıca anlam temelli değerlendirmeyi güçlendirmek için BERTScore veya benzeri anlamsal yakınlık ölçütleri kullanılabilir.
  • Mantık/Matematik: Adım adım çözümde adım doğruluğu (step accuracy) ve nihai cevap doğruluğu ayrıştırılmalı.


Gerçeklik ve kaynak bağlılık

  • Atıf tutarlılığı (groundedness): Modelin verdiği iddianın sağlanan kaynaklarla uyumu. Kaynak gösterimi zorunluysa, kaynak-satır eşleşme oranı veya “alıntı kapsama oranı” takip edilir.
  • Cevaplanabilirlik (answerability): Girdi, yanıt üretmeye yeterli mi? Gereksiz uydurmaları azaltmak için “cevap yok” tercihlerini ölçün.


Sağlamlık

  • Girdi bozma testleri: Yazım hatası, dil varyantı, sözdizimsel permütasyon gibi hafif bozmalarda metriklerin düşüşü ölçülür.
  • Adversary testleri: Jailbreak/kaçış denemeleri için negatif setler.


İstatistiksel güvence

  • Geliştirme farklarını doğrulamak için bootstrap veya uygun parametrik/parametrik olmayan testlerle anlamlılık (p-değeri) ve etki büyüklüğü raporlayın.


İnsan değerlendirmesi (HEM)

Otomatik skorlar tek başına yeterli değildir. Küçük ama temsil gücü yüksek örneklerde şu çerçeveleri kullanın:

  • Çiftli karşılaştırma (pairwise): A/B yanıtları kör karşılaştırmayla seçtirin; tarafgirliği azaltır.
  • Rubrik tabanlı puanlama: Doğruluk, bütünlük, açıklık, güvenlik, üslup gibi boyutlara 1–5 ölçeğinde puan. Görevler arası kıyas için tutarlı rubrik şart.
  • Hata etiketleme: Halüsinasyon, atıf eksikliği, toksisite, mahremiyet ihlali gibi hata sınıfları toplayın.


Güvenlik ve uyumluluk testleri

Üretim öncesi ve sonrasında politikaya uyum için:

  • Toksisite/nefret/şiddet sınıfları üzerinde negatif test setleri.
  • Kişisel veri sızıntısı (PII) yakalama kuralları.
  • İçerik filtrelerinin yanlış pozitif/negatif oranları.


Online (canlı) izleme

Canlıda kalite + maliyet + güvenlik dengesi için telemetri kurun.

Kalite sinyalleri

  • Kullanıcı memnuniyet sinyalleri (oylama, geri bildirim etiketi).
  • Kendinden alıntı (self-citation) ve kaynak tıklanma oranı (RAG senaryolarında).
  • Geri dönüş/yeniden soru oranı (clarification loop).


Performans ve maliyet

  • Gecikme (p95/p99) ve zaman bütçesi.
  • Token kullanımı (prompt/completion/RAG bağlamı ayrı).
  • Önbellek isabeti (retrieval ve yanıt cache).


Güvenlik

  • Jailbreak tetik sayısı, filtre atlama teşebbüsleri.
  • PII yakalama uyarıları.
  • Oran sınırlama (rate limit) ve kötüye kullanım göstergeleri.


A/B test ve deneyler

  • Yeni prompt/ara katman/örnekleme ayarları için A/B veya interleaving deneyleri; iş metrikleri (dönüşüm, çözüm süresi) ve kalite sinyalleri birlikte raporlanmalı.


RAG tabanlı sistemlere özel

  • Retrieval metrikleri: Recall@K, nDCG, MRR (ilk getirme kalitesi).
  • Reranking etkisi: İlk-10 → İlk-5 küçültme sonrası kalite/latency değişimi.
  • Dizin tazeliği: Belge ekleme/silme gecikmesi, “boş dönüş” oranı.
  • Groundedness: Yanıt-kaynak tutarlılığı ve alıntı kapsama metriği.


Süreç: Değerlendirme boru hattı

  1. Altın veri seti tanımla: Görev-özel, dengeli, sürüm kontrollü.
  2. Otomatik ölç: EM/F1/ROUGE/BERTScore + güvenlik kontrolleri.
  3. İnsan incelemesi ekle: Rubrik + çiftli karşılaştırma.
  4. Hata madenciliği: En kötü örnekleri kümelere ayır (halüsinasyon, atıf eksikliği, format hatası).
  5. Düzelt ve yinele: Prompt/ara katman/araç politikası/talimatlar.
  6. Üretim izleme panosu: Kalite, performans, güvenlik ve maliyet metriklerini tek panelden takip.
  7. Regresyon önleme: Her değişiklikte otomatik regresyon setini çalıştır.


Yaygın hatalar

  • Tek bir metrikle karar vermek.
  • Offline skorları canlı sinyallerle doğrulamamak.
  • RAG’de kaynak-yanıt izini zorunlu kılmamak.
  • Deneyleri istatistiksel olarak yetersiz örneklem ile sonlandırmak.
  • Loglama/telemetriyi gizlilik ve erişim kontrolü olmadan yapmak.


Özet: LLM değerlendirme ve izleme, otomatik metrikler + insan yargısı + canlı telemetri üçlüsünün dengeli kullanımını gerektirir. Görev-özel metriklerinizi tanımlayıp RAG/ güvenlik boyutlarını eklediğinizde, kaliteyi kanıtlanabilir şekilde artırırken maliyet ve riski kontrol altında tutarsınız.

LLM Değerlendirme: Metrikler ve İzleme Yazısını Beğendiniz Mi?

Yapay zeka dünyasından en güncel haberleri kaçırmamak için blog sayfamızı takip edin!

İlgili Blog Yazıları

Yapay Zekanın Maliyeti Ne Kadar?

Yapay zeka (AI), makinelerin insan benzeri düşünme, öğrenme ve karar alma y...

n8n vs. OpenAI AgentKit - Hangisi Daha İyi?

Transcript’teki gözlemleri baz alıp oradaki puanları dikkate almadan, özel...

Tokenler Nedir ve Nasıl Hesaplanır?

Yapay zekâ teknolojilerinin kalbinde yer alan “token” kavramı, kelimelerde...

← Tüm Blog Yazıları