Matematikte sınıfta kaldılar: 'Mutlaka hesap makinesi ile kontrol edin'
Gündelik hesaplamalarda kullanılan yapay zeka sohbet botlarının doğruluğu, Omni Research on Calculation in AI (ORCA) tarafından yürütülen kapsamlı bir çalışmada mercek altına alındı. Araştırma, beş popüler yapay zeka modelinin 500 farklı matematik sorusu üzerinden test edilmesiyle gerçekleştirildi.
Teste katılan modeller, ChatGPT-5 (OpenAI), Gemini 2.5 Flash (Google), Claude 4.5 Sonnet (Anthropic), DeepSeek V3.2 (DeepSeek AI) ve Grok-4 (xAI) oldu. Her bir yapay zekaâya aynı sorular yöneltilirken, doğruluk oranlarının yüzde 45 ila 63 arasında değiştiği görüldü.
EN YÜKSEK BAŞARI GEMİNİ'DEN
En yüksek başarıyı yüzde 63 ile Gemini elde etti. Ancak bu, her 10 sorudan yaklaşık 4’ünün yanlış cevaplandığı anlamına geliyor. Grok modeli yüzde 62,8 ile Gemini’yi yakından takip etti. DeepSeek yüzde 52 ile üçüncü sıraya yerleşirken, ChatGPT yüzde 49,4’lük doğruluk oranıyla dördüncü oldu. Listenin sonunda ise yüzde 45,2 ile Claude yer aldı.
Araştırmanın dikkat çeken bulgularından biri de kategoriler arasındaki performans farkı oldu. Özellikle matematik ve dönüşümler başlığında Gemini yüzde 83 doğrulukla öne çıkarken, Grok yüzde 76,9 ve DeepSeek yüzde 74,1 ile takip etti. Bu kategorideki ortalama doğruluk oranı yüzde 72,1 oldu.
EN DÜŞÜK BAŞARI FİZİKTE
Öte yandan, fizik alanı en düşük başarı oranının görüldüğü kategori oldu. 128 sorunun yöneltildiği bu alanda ortalama doğruluk yalnızca yüzde 35,8 seviyesinde kaldı. Grok burada da liderliği yüzde 43,8 ile sürdürürken, Claude yalnızca yüzde 26,6 doğruluk oranına ulaşabildi.

Biyoloji ve kimya gibi alanlarda DeepSeek’in başarısı oldukça düşük kaldı. Model, bu alanlarda yalnızca yüzde 10,6’lık bir doğruluk oranı yakalayabildi. Finans ve ekonomi alanlarında ise Grok ve Gemini yüzde 76,7 ile en yüksek doğruluk oranlarına ulaştı.
'ÇAPRAZ KONTROL ŞART'
Araştırmanın yazarlarından Dawid Siuda, yapay zeka modellerinin doğruluğunun hâlâ önemli ölçüde sınırlı olduğunu vurgulayarak, “Eğer görev kritikse, hesap makineleri veya başka bir yapay zeka modeliyle çapraz kontrol yapılmalı” uyarısında bulundu.
Araştırma, yapay zekAların yaptığı hataları da dört başlıkta topladı: “özensiz matematik” (yüzde 68), “hatalı mantık” (yüzde 26), “talimatı yanlış anlama” (yüzde 5) ve “vazgeçme”. En yaygın hata türü, doğru formül kullanılsa bile hesaplamada yapılan basit hatalar oldu. Özellikle çok adımlı işlemlerde yapılan yuvarlama hatalarının sonuçları ciddi biçimde saptırdığı tespit edildi.
Tüm bu veriler, yapay zekAların gündelik hesaplamalarda yaygın olarak kullanılmasına rağmen, mutlak güvenilemeyeceğini ortaya koyuyor. Kullanıcıların sonuçları kontrol etmeyi ihmal etmemesi gerekiyor.
www.sozcu.com.tr internet sitesinde yayınlanan yazı, haber ve fotoğrafların her türlü telif hakkı Mega Ajans ve Rek. Tic. A.Ş'ye aittir. İzin alınmadan, kaynak gösterilerek dahi iktibas edilemez.