Teknoloji

Yapay zekayı değerlendiren yüzlerce testte hata tespit edildi

Bilim insanları, yapay zekanın güvenliğini ölçmek için kullanılan 445 testin büyük bölümünde geçerliliği zedeleyen hatalar bulunduğunu belirledi.

05.11.2025 - 11:40

İngiltere Yapay Zeka Güvenlik Enstitüsü öncülüğünde yürütülen uluslararası araştırmada, yapay zekanın güvenliği ve etkinliğini ölçmek için kullanılan yüzlerce testin hatalı olduğu ortaya çıktı.

Çalışma, bu testlerin sonuçlarının güvenilirliği konusunda ciddi soru işaretleri yarattı.

Stanford, Berkeley ve Oxford üniversitelerinin de aralarında bulunduğu 14 kurumdan 29 bilim insanının katıldığı araştırma, “Önemli Olanı Ölçmek: Büyük Dil Modeli Kıyaslamalarında Yapı Geçerliği” başlığıyla yayımlandı.

Ekip, yapay zekanın alt dallarından “doğal dil işleme” ve “makine öğrenimi” alanlarında yapılan 445 farklı değerlendirme testini inceledi.

TESTLERİN ÇOĞU GEÇERSİZLİK RİSKİ TAŞIYOR

Analiz sonucunda testlerin büyük çoğunluğunda, sonuçların güvenilirliğini zedeleyebilecek yapısal kusurlar bulundu. Araştırmacılar, mevcut testlerin çoğunun “ölçmek istedikleri şeyi gerçekten ölçemediğini” tespit etti.

Çalışmanın baş yazarı, Oxford İnternet Enstitüsünden Andrew Bean, bu testlerin büyük teknoloji şirketlerinin piyasaya sürdüğü yapay zeka modellerini değerlendirmede temel araç olarak kullanıldığını söyledi.

“GÜVENİLİR ÖLÇÜM SİSTEMLERİ OLUŞTURULMALI” ÇAĞRISI

Bean, yapay zekanın gelişimini doğru şekilde takip edebilmek için ortak tanımlar ve güvenilir ölçüm yöntemlerinin geliştirilmesi gerektiğini vurguladı. Mevcut durumda farklı laboratuvar ve şirketlerin farklı test standartları kullanmasının, modellerin gerçek ilerlemesini objektif biçimde değerlendirmeyi zorlaştırdığı belirtildi.

Araştırma, yapay zekanın güvenliği konusundaki denetim mekanizmalarının yeniden ele alınması gerektiğini ortaya koydu.

Bunlar da ilginizi çekebilir

Yapay zekayı değerlendiren yüzlerce testte hata tespit edildi

Bilim insanları, yapay zekanın güvenliğini ölçmek için kullanılan 445 testin büyük bölümünde geçerliliği zedeleyen hatalar bulunduğunu belirledi.

TESTLERİN ÇOĞU GEÇERSİZLİK RİSKİ TAŞIYOR

“GÜVENİLİR ÖLÇÜM SİSTEMLERİ OLUŞTURULMALI” ÇAĞRISI

Honor Watch 6 tanıtıldı 35 gün şarj ömrü sunuyor

iPhone 18 Pro'ya büyük zam kapıda

Japonya Türkiye ile İHA alanında iş birliği arayışında

OpenAI’nin zararı 39 milyar dolara ulaştı

Fotoğrafta en iyi ışığı bulmanın pratik yolu

ABD'den Grok itirafı yapay zeka operasyonlarda kullanıldı

Threads Türkiye'de yeniden erişime açıldı

Yapay zeka ile vesikalık fotoğraf hazırlamak mümkün

Bilim insanları yeni bir biyolojik saat mekanizması keşfetti

Roblox'ta yeni dönem: Yaş doğrulama sistemi geliyor