💡 Yapay Zeka Rehberi

LLM Değerlendirme: Metrikler ve İzleme

📅

15 Ekim 2025

⏱️

5 dakika okuma

👁️

1094 görüntüleme

LLM Değerlendirme: Metrikler ve İzleme - Blog yazısı görseli

Büyük dil modellerini (LLM) üretime almak, yalnızca “iyi cevap veriyor mu?” sorusuyla bitmez. Doğruluk, güvenlik, maliyet, gecikme ve sürdürülebilir kalite için çok katmanlı bir değerlendirme ve izleme stratejisi gerekir. Aşağıda, üretime yönelik pratik ve hatasız bir çerçeve bulacaksınız.

Neden LLM değerlendirmesi farklı?

Klasik yazılımda doğruluk çoğu zaman deterministiktir; LLM’lerde ise olası ve çeşitli çıktılar vardır. Bu nedenle:

Çoklu ölçüt gerekir (doğruluk + güvenlik + kullanıcı deneyimi).
Görev-özel alt metrikler kaçınılmazdır (Soru-Cevap ≠ Özetleme).
İnsan değerlendirmesi hâlâ kritik rol oynar.

Offline (çevrimdışı) otomatik metrikler

Üretime çıkmadan önce, sabit bir “altın veri seti” üzerinde tekrarlanabilir testler yapın.

Görev-özel metrikler

Soru-Cevap / Bilgi çekme: Exact Match (EM), F1 (token tabanlı hassasiyet/duyarlılık dengesi).
Sınıflandırma/Etiketleme: Accuracy, Precision/Recall, F1, macro/micro ağırlıklar.
Özetleme/Serbest üretim: ROUGE (n-gram örtüşmesi), ayrıca anlam temelli değerlendirmeyi güçlendirmek için BERTScore veya benzeri anlamsal yakınlık ölçütleri kullanılabilir.
Mantık/Matematik: Adım adım çözümde adım doğruluğu (step accuracy) ve nihai cevap doğruluğu ayrıştırılmalı.

Gerçeklik ve kaynak bağlılık

Atıf tutarlılığı (groundedness): Modelin verdiği iddianın sağlanan kaynaklarla uyumu. Kaynak gösterimi zorunluysa, kaynak-satır eşleşme oranı veya “alıntı kapsama oranı” takip edilir.
Cevaplanabilirlik (answerability): Girdi, yanıt üretmeye yeterli mi? Gereksiz uydurmaları azaltmak için “cevap yok” tercihlerini ölçün.

Sağlamlık

Girdi bozma testleri: Yazım hatası, dil varyantı, sözdizimsel permütasyon gibi hafif bozmalarda metriklerin düşüşü ölçülür.
Adversary testleri: Jailbreak/kaçış denemeleri için negatif setler.

İstatistiksel güvence

Geliştirme farklarını doğrulamak için bootstrap veya uygun parametrik/parametrik olmayan testlerle anlamlılık (p-değeri) ve etki büyüklüğü raporlayın.

İnsan değerlendirmesi (HEM)

Otomatik skorlar tek başına yeterli değildir. Küçük ama temsil gücü yüksek örneklerde şu çerçeveleri kullanın:

Çiftli karşılaştırma (pairwise): A/B yanıtları kör karşılaştırmayla seçtirin; tarafgirliği azaltır.
Rubrik tabanlı puanlama: Doğruluk, bütünlük, açıklık, güvenlik, üslup gibi boyutlara 1–5 ölçeğinde puan. Görevler arası kıyas için tutarlı rubrik şart.
Hata etiketleme: Halüsinasyon, atıf eksikliği, toksisite, mahremiyet ihlali gibi hata sınıfları toplayın.

Güvenlik ve uyumluluk testleri

Üretim öncesi ve sonrasında politikaya uyum için:

Toksisite/nefret/şiddet sınıfları üzerinde negatif test setleri.
Kişisel veri sızıntısı (PII) yakalama kuralları.
İçerik filtrelerinin yanlış pozitif/negatif oranları.

Online (canlı) izleme

Canlıda kalite + maliyet + güvenlik dengesi için telemetri kurun.

Kalite sinyalleri

Kullanıcı memnuniyet sinyalleri (oylama, geri bildirim etiketi).
Kendinden alıntı (self-citation) ve kaynak tıklanma oranı (RAG senaryolarında).
Geri dönüş/yeniden soru oranı (clarification loop).

Performans ve maliyet

Gecikme (p95/p99) ve zaman bütçesi.
Token kullanımı (prompt/completion/RAG bağlamı ayrı).
Önbellek isabeti (retrieval ve yanıt cache).

Güvenlik

Jailbreak tetik sayısı, filtre atlama teşebbüsleri.
PII yakalama uyarıları.
Oran sınırlama (rate limit) ve kötüye kullanım göstergeleri.

A/B test ve deneyler

Yeni prompt/ara katman/örnekleme ayarları için A/B veya interleaving deneyleri; iş metrikleri (dönüşüm, çözüm süresi) ve kalite sinyalleri birlikte raporlanmalı.

RAG tabanlı sistemlere özel

Retrieval metrikleri: Recall@K, nDCG, MRR (ilk getirme kalitesi).
Reranking etkisi: İlk-10 → İlk-5 küçültme sonrası kalite/latency değişimi.
Dizin tazeliği: Belge ekleme/silme gecikmesi, “boş dönüş” oranı.
Groundedness: Yanıt-kaynak tutarlılığı ve alıntı kapsama metriği.

Süreç: Değerlendirme boru hattı

Altın veri seti tanımla: Görev-özel, dengeli, sürüm kontrollü.
Otomatik ölç: EM/F1/ROUGE/BERTScore + güvenlik kontrolleri.
İnsan incelemesi ekle: Rubrik + çiftli karşılaştırma.
Hata madenciliği: En kötü örnekleri kümelere ayır (halüsinasyon, atıf eksikliği, format hatası).
Düzelt ve yinele: Prompt/ara katman/araç politikası/talimatlar.
Üretim izleme panosu: Kalite, performans, güvenlik ve maliyet metriklerini tek panelden takip.
Regresyon önleme: Her değişiklikte otomatik regresyon setini çalıştır.

Yaygın hatalar

Tek bir metrikle karar vermek.
Offline skorları canlı sinyallerle doğrulamamak.
RAG’de kaynak-yanıt izini zorunlu kılmamak.
Deneyleri istatistiksel olarak yetersiz örneklem ile sonlandırmak.
Loglama/telemetriyi gizlilik ve erişim kontrolü olmadan yapmak.

Özet: LLM değerlendirme ve izleme, otomatik metrikler + insan yargısı + canlı telemetri üçlüsünün dengeli kullanımını gerektirir. Görev-özel metriklerinizi tanımlayıp RAG/ güvenlik boyutlarını eklediğinizde, kaliteyi kanıtlanabilir şekilde artırırken maliyet ve riski kontrol altında tutarsınız.

İlgili Blog Yazıları

Tokenler Nedir ve Nasıl Hesaplanır?

Yapay zekâ teknolojilerinin kalbinde yer alan “token” kavramı, kelimelerde...

MCP (Model Context Protocol) Nedir?

MCP (Model Context Protocol), yapay zekâ modellerinin bağlamsal anlayışını...

Altı Yapay Zeka Kripto Piyasasında Yarıştı: Alpha Arena Deneyi

Yapay zeka modellerinin yalnızca metin üretiminde değil, finansal piyasalarda...

← Tüm Blog Yazıları