İngiltere Yapay Zeka Güvenlik Enstitüsü öncülüğünde yürütülen uluslararası araştırmada, yapay zekanın güvenliği ve etkinliğini ölçmek için kullanılan yüzlerce testin hatalı olduğu ortaya çıktı.

Çalışma, bu testlerin sonuçlarının güvenilirliği konusunda ciddi soru işaretleri yarattı.

Stanford, Berkeley ve Oxford üniversitelerinin de aralarında bulunduğu 14 kurumdan 29 bilim insanının katıldığı araştırma, “Önemli Olanı Ölçmek: Büyük Dil Modeli Kıyaslamalarında Yapı Geçerliği” başlığıyla yayımlandı.

Ekip, yapay zekanın alt dallarından “doğal dil işleme” ve “makine öğrenimi” alanlarında yapılan 445 farklı değerlendirme testini inceledi.

TESTLERİN ÇOĞU GEÇERSİZLİK RİSKİ TAŞIYOR

Analiz sonucunda testlerin büyük çoğunluğunda, sonuçların güvenilirliğini zedeleyebilecek yapısal kusurlar bulundu. Araştırmacılar, mevcut testlerin çoğunun “ölçmek istedikleri şeyi gerçekten ölçemediğini” tespit etti.

Çalışmanın baş yazarı, Oxford İnternet Enstitüsünden Andrew Bean, bu testlerin büyük teknoloji şirketlerinin piyasaya sürdüğü yapay zeka modellerini değerlendirmede temel araç olarak kullanıldığını söyledi.

Tüi̇k 2025 Yapay Zeka Karnesi Türkiye’de Dijital Sıçrama

“GÜVENİLİR ÖLÇÜM SİSTEMLERİ OLUŞTURULMALI” ÇAĞRISI

Bean, yapay zekanın gelişimini doğru şekilde takip edebilmek için ortak tanımlar ve güvenilir ölçüm yöntemlerinin geliştirilmesi gerektiğini vurguladı. Mevcut durumda farklı laboratuvar ve şirketlerin farklı test standartları kullanmasının, modellerin gerçek ilerlemesini objektif biçimde değerlendirmeyi zorlaştırdığı belirtildi.

Kasım 2025’in en güçlü android telefonları
Kasım 2025’in en güçlü android telefonları
İçeriği Görüntüle

Araştırma, yapay zekanın güvenliği konusundaki denetim mekanizmalarının yeniden ele alınması gerektiğini ortaya koydu.

Kaynak: AA