Yapay zeka alanında kıyaslama testleri giderek çeşitlenirken, Kaliforniya Üniversitesi’nden Hao AI Lab ekibi, popüler yapay zeka modellerini Super Mario Bros. oynatarak değerlendirdi. Yapılan deneylerde, Anthropic’in Claude 3.7 modeli en iyi performansı sergilerken, Claude 3.5 ikinci sırada yer aldı. Google’ın Gemini 1.5 Pro ve OpenAI’ın GPT-4o modelleri ise beklentilerin altında kaldı.
Super Mario ile yapay zeka testi nasıl yapıldı?
1985 yapımı Super Mario Bros., doğrudan test aracı olarak kullanılmadı. Emülatör üzerinden çalışan ve GamingAgent adlı özel bir framework ile entegre edilen oyun, yapay zekalara Mario’yu kontrol etme imkanı sundu. Yapay zekalar, ‘engel veya düşmanlardan kaçınmak için zıpla’ gibi basit komutlarla yönlendirildi ve Python kodları üreterek karakterin hareketlerini belirledi.
“Düşünen” modeller neden başarısız oldu?
Araştırmaya göre, adım adım mantık yürüten ve kararlarını analiz eden yapay zekalar, gerçek zamanlı oyun dinamiklerine uyum sağlayamadı. Özellikle OpenAI’ın o1 modeli, genellikle üstün performans gösterdiği kıyaslama testlerine rağmen, Super Mario deneyinde başarısız oldu. Bunun nedeni, o1 gibi modellerin hamle yapmadan önce belirli bir süre boyunca karar vermeye ihtiyaç duyması. Ancak Super Mario gibi hızlı refleks gerektiren oyunlarda, bir saniyelik gecikme bile karakterin kaybetmesine yol açabiliyor.
Öte yandan, yapay zekaların oyun performanslarına dayalı kıyaslanması bazı uzmanlar tarafından eleştiriliyor. Çünkü oyunlar, gerçek dünyadan farklı olarak belirli kurallara dayalı ve sonsuz miktarda veri sunan yapay ortamlar yaratıyor. Bu nedenle, bir yapay zekanın oyunlardaki başarısı, genel zekası veya teknoloji düzeyi hakkında doğrudan bir gösterge olmayabilir.
Kaynak: CUMHA – CUMHUR HABER AJANSI