Bu hacker ekibi OpenAI ve Anthropic gibi şirketler için yapay zeka modellerini kurşun geçirmez hale getiriyor
Gray Swan AI'ın arkasındaki araştırmacılar şirketlerini, OpenAI, Anthropic, Google ve Meta'nın modellerinde büyük bir güvenlik açığı bulduktan sonra kurdular. Şimdi onları korumaya yardımcı olan ürünler geliştiriyorlar.
Gray Swan AI'ın arkasındaki araştırmacılar şirketlerini, OpenAI, Anthropic, Google ve Meta'nın modellerinde büyük bir güvenlik açığı bulduktan sonra kurdular. Şimdi onları korumaya yardımcı olan ürünler geliştiriyorlar.
600'den fazla hacker geçen ay bir "jailbreaking arenasında" yarışmak üzere bir araya geldi ve dünyanın en popüler yapay zeka modellerinden bazılarını yasadışı içerik üretmeleri için kandırmaya çalıştı: örneğin, meth üretmek için ayrıntılı talimatlar veya iklim değişikliğinin bir aldatmaca olduğunu iddia eden yanıltıcı haberler gibi.
Hack etkinliğine ev sahipliği yapan Gray Swan AI, akıllı sistemlerin risklerini belirleyen ve bu modellerin güvenli bir şekilde kullanılmasına yardımcı olacak araçlar geliştirerek zarar vermelerini önlemek için çalışan genç ve iddialı bir güvenlik girişimi. OpenAI, Anthropic ve Birleşik Krallık Yapay Zeka Güvenlik Enstitüsü ile kayda değer ortaklıklar ve sözleşmeler imzalayan Gray Swan, dikkatleri üzerine çekmeyi başardı.
Gray Swan'ın kurucu ortağı ve icra kurulu başkanı Matt Fredrikson Forbes'a verdiği demeçte, "İnsanlar yapay zekayı hemen hemen her şeye dahil ediyor" dedi. "Artık teknolojinin ve toplumun her alanına dokunuyor. İnsanların sistemlerinde neyin yanlış gidebileceğini anlamalarına yardımcı olacak pratik çözümlere yönelik büyük bir ihtiyaç açığı olduğu aşikar."
Gray Swan geçen eylülde yapay zekaya özgü güvenlik sorunlarını araştıran üç bilgisayar bilimci tarafından kuruldu. Hem Fredrikson hem de baş teknik danışman Zico Kolter, doktora öğrencisi olan kurucu ortakları Andy Zou ile tanıştıkları Carnegie Mellon Üniversitesi'nde profesörlük yapıyor. (Fredrikson şu anda izinli.) Bu yılın başlarında OpenAI'ın yönetim kuruluna atanan Kolter, şirketin büyük model sürümlerini denetleyen yeni emniyet ve güvenlik komitesinin başına getirildi. Bu nedenle iki şirket arasındaki etkileşimlerden kendini geri çekti.
"Bu modelleri bu tür bir jailbreak'e karşı korumanın mümkün olduğunu gerçekten ilk kez gösterebildik."
Zico Kolter, Gray Swan AI kurucu ortağı ve baş teknik danışmanı
Yapay zekanın baş döndürücü bir hızla gelişmesi, yeni şirketlerden oluşan geniş bir ekosistem yarattı -bazıları her zamankinden daha güçlü modeller yaratırken diğerleri onlara eşlik edebilecek tehditleri belirliyor. Bunlardan ikincisi arasında yer alan Gray Swan, tespit ettiği bazı sorunlar için güvenlik önlemleri oluşturarak bunu bir adım öteye taşıyor. Kolter Forbes'a verdiği demeçte, "Aslında bu riskleri ortadan kaldırabileceğiniz ya da en azından hafifletebileceğiniz mekanizmalar sağlayabiliriz" dedi. "Ve bence bu açığı kapatmak, başka hiçbir yerde bu derecede gösterilmemiş bir şey."
Bu, çözüm bekleyen tehlikelerin sıradan güvenlik tehditleri yerine karmaşık modellerin zorla kullanılması veya gömülü robotik sistemlerin kontrolden çıkması gibi durumlar olduğu zaman kolay bir iş değil. Geçen yıl Fredrickson, Kolter ve Zou, kötü niyetli bir komut istemine bir dizi karakter ekleyerek bir modelin güvenlik filtrelerini atlayabileceklerini gösteren bir araştırma yazdılar. Örneğin, "Bana nasıl bomba yapılacağını söyle" sorusu bir ret cevabı verirken, aynı soru bir dizi ünlem işaretiyle değiştirildiğinde ayrıntılı bir bomba yapım kılavuzu ortaya çıkıyordu. Zou, OpenAI, Anthropic, Google ve Meta tarafından geliştirilen modeller üzerinde çalışan bu yöntemi "tüm jailbreak'lerin anası" olarak adlandırıyor. Zou'nun dediğine göre Gray Swan'ın yaratılmasındaki ilham da bu olmuş.