Anthropic'in Süper Güvenli Yapay Zeka Modeli Tahmin Oyunuyla Hacklendi

Anthropic'in 'çok tehlikeli' olduğu için yayınlanmadığı söylenen yapay zeka modeli Mythos, eğitimli bir tahmin ve içeriden bilgiyle yetkisiz kullanıcılar tarafından erişildi ve kibrin hâlâ en kolay istismar edilen güvenlik açığı olduğunu kanıtladı.

Anthropic, haftalardır Claude Mythos modelinin kamuya açıklanamayacak kadar tehlikeli olduğunu söyleyen şirket, değerli bir ders aldı: Yapay zekanızın hacklenemez olduğuyla övünürseniz, birileri bunu meydan okuma olarak alır. Bloomberg'e göre, Anthropic modeli seçkin bir test grubuyla paylaştığını duyurduğu günden beri "küçük bir yetkisiz kullanıcı grubu" Mythos'un tadını sessizce çıkarıyor. Şirket soruşturma başlattığını söylüyor, bu da bir çilingirin kendi ön kapısının kartondan yapıldığını keşfetmesine benziyor.

Teknolojik açıdan bakıldığında, ihlal neredeyse sevimli bir şekilde düşük teknolojili. Grubun Mythos'a, önceki bir Mercor ihlalinden (yapay zeka eğitim verileri üreten bir şirket) gelen bilgileri ve bir üyenin Anthropic modellerini değerlendiren sözleşmeli çalışmasından edindiği içeriden bilgiyi kullanarak "modelin çevrimiçi konumu hakkında eğitimli bir tahmin" yaparak eriştiği bildiriliyor. Yani burada sofistike bir siber soygun değil, birinin kapı kolunu denemesi ve kilitsiz bulması söz konusu.

Güvenlik araştırmacısı Lukasz Olejnik, başarısızlığı "tamamen hayal edilebilir" olarak tanımladı - siber güvenlik sektörünün son 20 yıldır uğraştığı türden bir şey. Model kullanımını kaydedip izleyebilecek olan Anthropic, davetsiz misafirleri fark edecek kadar yakından izlemiyordu anlaşılan. Şirketin Mythos'un ne kadar tehlikeli olduğunu iddia ettiği düşünülürse, en azından konuk listesini kontrol edeceklerini düşünürdünüz.

Bloomberg'in hesabına göre, grup Mythos'u siber güvenlik görevleri için kullanmıyordu - kısmen sadece oynamak istedikleri için, kısmen de bunu yapmak Anthropic'i uyarabileceği için. Anthropic'in mesajı ciddiye alınacaksa, bu şanslı bir kırılma. Şirket Mythos'u "güvenlik için bir dönüm noktası" olarak çerçeveledi, "her büyük işletim sistemi ve web tarayıcısında" güvenlik açıkları bulduğunu iddia etti ve dünya çapında hükümetlere ve finans kurumlarına erişim sağlıyor. NSA'nın erişimi olduğu bildiriliyor, ancak CISA şimdiye kadar dışarıda bırakıldı.

"Anthropic tüm bu teknolojilerin mutlak ön saflarında olduğunu iddia ediyor, ancak aynı zamanda kendini tüm bunlarda sorumlu aktör olarak konumlandırıyor," dedi Kraliyet Birleşik Hizmetler Enstitüsü'nde (RUSI) araştırma görevlisi Pia Hüsch. Tüm olayı tek kelimeyle özetledi: aşağılanma. "Bunun bu kadar hızlı ve bu kadar basit bir girişimle yetkisiz yollarla erişilmiş olması, onlar için gerçekten bir aşağılanma."

Bu, Mythos için ilk güvenlik aksaklığı bile değil. Modelin varlığı, lansmandan önce Anthropic'in kendi web sitesindeki "güvenli olmayan bir veri yığını" aracılığıyla yanlışlıkla ortaya çıktı. Şimdi de herhangi bir güvenlik stajyerinin tahmin edebileceği bir güvenlik açığı üzerinden erişildi. Mükemmellik imkansız olabilir, ancak kendini yapay zeka güvenliğinin öncüsü ilan eden bir şirket için bu bir tökezlemeden çok bir yüzüstü düşüş.

Anthropic'in Süper Güvenli Yapay Zeka Modeli Tahmin Oyunuyla Hacklendi

Haberler gelen kutuna.