Yapay zekada şiirsel komutlar güvenlik açığı yaratır mı?
Yeni bir araştırma, şiir biçiminde yazılan komutların ChatGPT, Gemini ya da Claude gibi yapay zeka modellerini şaşırttığını gösteriyor. Hatta bazı durumlarda güvenlik mekanizmaları devreye bile girmiyor.
İtalya'daki Icaro Lab'da yapay zeka konusunda çalışan araştırmacılar, elde ettikleri sonuçları şaşkınlıkla karşıladı. Amaçları, farklı dil stillerinin ve özellikle de şiir biçiminde yazılmış komutların, yapay zeka modellerinin yasaklı ya da tehlikeli içerikleri tanıma ve engelleme becerisini etkileyip etkilemediğini incelemekti. Yaptıkları çalışmalar sonucunda şiirin etkisi olduğunu buldular. Ancak bunun nedeni ise henüz tam olarak bilinmiyor.
Araştırmacılar, "Adversarial Poetry" (karşıt şiir) başlıklı çalışmalarında, normalde yapay zeka dil modellerinin güvenliğini test etmek için kullanılan bir veri tabanından alınmış bin 200 potansiyel tehlikeli komutu şiir formuna dönüştürdü.
Bu tür "adversarial prompt"lar (karşıt komutlar), genellikle düz yazıyla hazırlanıyor ve yapay zekayı, normalde engellemesi gereken zararlı ya da istenmeyen içerikleri üretmeye zorlamayı amaçlıyor. Örneğin yasa dışı bir eylemin nasıl yapılacağına dair açık talimatlar gibi.
Ancak bu manipülatif girdiler şiir biçiminde sunulduğunda, şaşırtıcı derecede yüksek bir başarı oranı ortaya çıktı. Çalışmayı yürütenler isimlerden Federico Pierucci, DW'ye verdiği röportajda, "Şiirin bir 'jailbreak' (kırma) tekniği yani yapay zekanın güvenlik bariyerlerini aşmanın bir yolu olarak neden bu kadar etkili olduğu şimdilik belirsiz. Bu da yeni araştırmaların konusu" diyor.
Şiir bir güvenlik açığı mı?
Icaro Lab'ın çalışmaları, yapay zeka modellerinin, bir komutun sonuna eklenen ve matematiksel yöntemlerle üretilen manipülatif metin parçalarıyla da şaşırtılabildiği gözlemine dayanıyor. Bu tür eklere "adversarial suffix" (karşıt son ek) deniyor. Bir tür dijital parazit işlevi gören bu metinler, yapay zekanın kendi güvenlik kurallarını devre dışı bırakmasına yol açabiliyor. Büyük yapay zeka şirketleri, modellerini güçlendirmek ve eğitmek için bu tür saldırı yöntemlerini zaten düzenli olarak test ediyor.
Pierucci ve ekibi ise şu soruyu soruyor: "Yapay zekaya, karşıt son ek gibi kasıtlı olarak manipüle edilmiş bir metin veya komut verdiğimizde ne olacak?" Pierucci, aynı etkiyi karmaşık matematik yerine şiirsel bir metinle oluşturmanın mümkün olup olmadığını incelediklerin anlatıyor.

Yapay zeka sistemleri giderek daha karmaşık hale gelse de şiir gibi edebî metinler konusunda başarısız olabiliyorFotoğraf: Christian Ohde/CHROMORANGE/picture alliance
Pierucci, "Yapay zekayı şaşırtmak için şiiri kullandık" diyor. Karşıt ifadelerin, yapay zeka için bir tür şiir gibi işlediğini ifade eden Pierucci şöyle devam ediyor: