💡 Yapay Zeka Rehberi

Hibrit Arama: BM25 + Embedding Temelleri

📅
17 Ekim 2025
⏱️
5 dakika okuma
👁️
1828 görüntüleme
 - Blog yazısı görseli

Modern arama sistemleri yalnızca kelime eşleşmelerine değil, anlam bağlantılarına da odaklanıyor. Bu makalede, klasik BM25 algoritmasıyla yapay zeka tabanlı embedding modellerinin nasıl bir araya gelerek daha akıllı bir “hibrit arama” deneyimi sunduğunu inceliyoruz.


Arama Sistemlerinin Evrimi

Bir arama motorunun amacı, kullanıcı sorgusuna en alakalı sonucu en hızlı biçimde sunmaktır.

Eskiden bu görev yalnızca kelime benzerliğiyle ölçülüyordu. Örneğin “araba fiyatı” yazan biri için sistem sadece aynı kelimeleri içeren sonuçları getiriyordu. Ancak zamanla, bu yaklaşım yetersiz kaldı çünkü insanlar aynı anlamı farklı kelimelerle ifade edebiliyor. “Otomobil maliyeti” arayan birinin niyeti aslında aynıydı.

Bu noktada, semantik yani “anlam temelli” arama kavramı doğdu.


BM25 Nedir?

BM25, bilgi erişimi dünyasının en köklü algoritmalarından biridir.

Basitçe, bir belgedeki kelimelerin sorguyla ne kadar örtüştüğünü hesaplar.

Bunu yaparken üç ana faktöre bakar:

  • Kelimenin belgede geçme sıklığı (TF)
  • Kelimenin genel popülerliği (IDF)
  • Belge uzunluğu

BM25, her kelimeye “önem puanı” atar ve toplamda belgenin sorguya benzerliğini hesaplar.

Bu nedenle, hâlâ arama motorlarının temel taşlarından biridir.

Ancak BM25 yalnızca kelimelere bakar; “anlamı” anlayamaz. İşte burada embedding devreye girer.


Embedding Nedir?

Embedding, kelimeleri veya cümleleri sayısal vektörler hâline dönüştürme yöntemidir.

Amaç, benzer anlamlı ifadeleri uzayda birbirine yakın konumlandırmaktır.

Örneğin “kedi” ve “hayvan” kelimeleri, yüksek boyutlu bir vektör uzayında birbirine yakın olurken, “masa” oldukça uzakta yer alır.

Bu yöntem, yalnızca kelime benzerliğini değil, anlamsal yakınlığı da ölçmeyi mümkün kılar.

Modern yapay zeka modelleri (örneğin transformer tabanlı modeller) embedding hesaplamada son derece başarılıdır.


Neden Hibrit Arama?

BM25 hızlı, kanıtlanmış ve metin tabanlı bir yöntemdir.

Embedding ise anlam derinliğini yakalayarak daha akıllı eşleştirmeler yapar.

Ancak embedding modelleri bazen fazla “genelleştirici” olabilir; tam kelime eşleşmesini kaçırabilirler.

Bu yüzden günümüzde birçok sistem hibrit yaklaşımı benimser.

Hibrit arama, iki dünyanın en iyi yanlarını birleştirir:

  • BM25 → Anahtar kelime düzeyinde kesinlik
  • Embedding → Anlamsal benzerlikte derinlik

Sonuç: Daha doğru, kullanıcı niyetine uygun arama sonuçları.


BM25 ve Embedding Nasıl Birleşir?

Hibrit sistemlerde genellikle iki aşamalı bir yaklaşım uygulanır:

  1. Klasik Filtreleme:
  2. BM25 sorguyla en çok eşleşen belgeleri hızlıca bulur (örneğin ilk 1000 belge).
  3. Anlamsal Sıralama:
  4. Embedding modeli bu 1000 belgeyi anlam düzeyinde değerlendirir ve son sıralamayı yapar.

Bazı sistemlerde bu iki yöntem birlikte puanlanır.

Örneğin:

final_score = 0.5 * BM25_score + 0.5 * Embedding_similarity

Ağırlıklar kullanım amacına göre değiştirilebilir. Böylece sonuç hem sözcüksel hem anlamsal olarak dengelenmiş olur.


Vektör Arama Motorlarının Rolü

Embedding tabanlı aramalarda belgeler, vektör veri tabanlarında saklanır.

Bu veri tabanları (örnek: FAISS, Milvus, Pinecone gibi) milyonlarca vektör arasında benzerlik sorguları yapabilir.

Burada amaç, kullanıcının sorgu vektörüne en yakın belgeleri bulmaktır.

Ancak bu sistemler tek başına kullanıldığında kelime düzeyinde kesinlikten ödün verilebilir.

Örneğin “Python” sözcüğü bazen hayvan, bazen programlama dili anlamında kullanılır — embedding modelinin anlamı doğru seçmesi her zaman garanti değildir.

İşte hibrit arama bu riski azaltır.


Hibrit Arama Mimarisi

Tipik bir hibrit arama sistemi şu bileşenlerden oluşur:

  • İndeks Katmanı: BM25 için ters indeks yapısı
  • Vektör Katmanı: Embedding temsillerini içeren vektör veri tabanı
  • Sorgu İşleme Katmanı: Kullanıcı sorgusunu hem kelime hem de embedding olarak işler
  • Birleştirme Katmanı: Her iki skorun ağırlıklı ortalamasını alır
  • Sonuç Katmanı: Nihai sıralamayı kullanıcıya sunar

Bu mimari, hem hız hem de anlam doğruluğu açısından optimize edilmiştir.


Gerçek Dünya Örneği: Belgelerde Anlamlı Eşleşme

Bir kullanıcı “doğal dil işleme örnekleri” şeklinde bir sorgu yazsın.

BM25, yalnızca bu kelimeleri içeren belgeleri bulur.

Embedding modeli ise “metin analizi”, “dil modeli”, “anlamsal çözümleme” gibi kavramları da yakın bulur.

Hibrit sistem, bu iki sonucu harmanlayarak gerçekten alakalı belgeleri üst sıralara taşır.

Bu yöntem, özellikle chatbot, döküman arama, kurumsal bilgi tabanları gibi ortamlarda yüksek başarı sağlar.


Avantajlar ve Zorluklar

Avantajlar

  • Daha yüksek doğruluk: Kullanıcı niyetini daha iyi yakalar.
  • Esneklik: Farklı sorgu türlerinde performans düşmez.
  • Uyarlanabilirlik: Ağırlıklar farklı veri türlerine göre optimize edilebilir.

Zorluklar

  • Hesaplama maliyeti: Embedding modelleri yüksek işlem gücü gerektirir.
  • Veri yönetimi: Vektör veri tabanlarının bakımı klasik sistemlere göre daha karmaşıktır.
  • Dengeleme: BM25 ve embedding ağırlıklarını doğru seçmek deneyim ister.


Gelecek: Anlam Odaklı Arama Çağı

Yapay zekanın ilerlemesiyle birlikte hibrit arama giderek daha fazla sistemde standart hâline geliyor.

Yeni modeller, sorgunun “bağlamını” da anlayarak sadece kelimeleri değil, niyeti de çözümleyebiliyor.

Bu sayede kullanıcılar, yalnızca yazdıkları değil, ne demek istedikleri üzerinden de doğru bilgiye ulaşabiliyorlar.

Gelecekte hibrit arama, bilgiye erişim dünyasında kelimelerin ötesine geçerek “anlam merkezli” bir arama çağının kapısını aralayacak.

Hibrit Arama: BM25 + Embedding Temelleri Yazısını Beğendiniz Mi?

Yapay zeka dünyasından en güncel haberleri kaçırmamak için blog sayfamızı takip edin!

İlgili Blog Yazıları

Agent Sistemleri Nedir? Otonom Yapay Zeka Ajanları

Yapay zeka, günümüzde yalnızca veri analizinden ibaret değil; artık çevre...

Embedding’ler: Boyut, Normalizasyon ve Aramadaki Etkisi

Embedding’ler, metinleri sayısal vektörlere dönüştürerek makinelerin anl...

AI Prompt Engineering: Daha İyi Sonuçlar İçin Prompt Sanatı

Yapay zekâ ile çalışırken verdiğimiz yönergeler yani promptlar, aldığı...

← Tüm Blog Yazıları