Yeni bir araştırmaya göre, büyük dil modellerinin (LLM) bir kullanıcının sorusuna yanlış yanıt verme olasılığı, cevabı bilmediğini kabul etme olasılığından daha yüksek ve bu da onları daha az güvenilir yapıyor.
İspanya'daki Universitat Politecnica de Valencia'dan yapay zeka (AI) araştırmacıları, BigScience'ın BLOOM, Meta'nın Llama ve OpenAI'nin GPT'sinin en son sürümlerini, her modele matematik, fen ve coğrafya üzerine binlerce soru sorarak doğruluk açısından test etti.
Araştırmacılar her bir modelin verdiği yanıtların kalitesini karşılaştırdı ve bunları doğru, yanlış ya da kaçıngan yanıtlar olarak sınıflandırdı.
Nature dergisinde yayınlanan çalışmada, her yeni modelle birlikte daha zorlu problemlerde doğru cevapların arttığı görüldü. Yine de modeller, bir soruyu doğru yanıtlayıp yanıtlayamadıkları konusunda daha az şeffaf olma eğilimindeydi.
Daha önceki LLM modelleri cevapları bulamadıklarını ya da bir cevaba ulaşmak için daha fazla bilgiye ihtiyaç duyduklarını belirtirken, yeni modellerin tahmin etme ve kolay sorulara bile yanlış cevaplar üretme olasılığı daha yüksekti.
Ferdi Zeyrek davasında tutuklu 2 sanığa tahliye
Adli Emanet'lerin güvenliği sorgulanıyor: Diyarbakır'da yüzlerce mermi çalınıp satılmış!
Gündemden düşmeyen ölümde şok iddia: 'Güll'nün itildiği görüntüler ortaya çıktı'
Tanınmış televizyon spikerlerine uyuşuturucu gözaltısı
Türkiye'yi sarsan hırsızlığın görüntüleri ortaya çıktı: Market arabasıyla Adliye soygunu
Avrupa liderleri endişeli! Konuşmaları sızdı: "ABD Ukrayna'yı satabilir" şüphesi