Yapay zeka zehirlenmesi nedir ve neden endişe verici?

İngiltere Yapay Zeka Güvenlik Enstitüsü tarafından yayınlanan araştırma, büyük dil modellerine milyonlarca dosya arasına sadece 250 kötü amaçlı dosya eklenerek gizli bir şekilde zarar verilebileceğini ortaya koymaktadır. Bu bulgu, yapay zeka sistemlerinin beklenenden çok daha kırılgan olduğunu göstermektedir.

HABER MERKEZİ

Zehirlenme kavramı genellikle insan sağlığı ve çevre kirliliğiyle ilişkilendirilse de, son yıllarda yapay zeka teknolojisinin en ciddi sorunlarından biri haline gelmiştir. Özellikle ChatGPT ve Claude gibi gelişmiş dil modellerinin yaygınlaşmasıyla birlikte, bu tehdit giderek daha fazla dikkat çekmektedir. Ayın başlarında İngiltere Yapay Zeka Güvenlik Enstitüsü, Alan Turing Enstitüsü ve Anthropic tarafından ortaklaşa gerçekleştirilen araştırma, yapay zeka zehirlenmesinin ne kadar etkili olabileceğini somut verilerle göstermiştir. Araştırmaya göre, bir yapay zeka modelinin eğitim sürecinde kullanılan milyonlarca dosya arasına sadece 250 adet kötü amaçlı dosya eklenmesi, modeli tamamen gizli bir şekilde zehirleyebilmektedir. Bu bulgu, yapay zeka sistemlerinin güvenliğine ilişkin ciddi endişeleri gündeme getirmektedir.

Yapay zeka zehirlenmesi tam olarak nedir

Yapay zeka zehirlenmesi, bir yapay zeka modeline kasıtlı olarak yanlış veya zararlı bilgiler öğretme sürecini tanımlamaktadır. Bu işlemin temel amacı, modelin bilgi tabanını bozmak, performansını düşürmek, belirli hatalı çıktılar üretmesini sağlamak veya gizli ve kötü niyetli işlevler sergilemesini sağlamaktır. Bunu anlaşılır bir benzetmeyle açıklamak gerekirse, bir öğrencinin ders notlarına bilinçsizce birkaç yanlış bilgi kartı karıştırılması gibidir. Sınav sırasında benzer bir soruyla karşılaştığında, o yanlış kartlar devreye girerek öğrencinin doğru cevap verdiğini düşünmesine rağmen otomatik olarak hatalı yanıtlar vermesine neden olur. Teknik açıdan bakıldığında, bu manipülasyon eğitim aşamasında gerçekleştiğinde veri zehirlenmesi olarak adlandırılmaktadır. Buna karşılık, model zehirlenmesi ise saldırganların eğitim tamamlandıktan sonra modelin kendisini değiştirmesidir. Pratikte ise bu iki yöntem sıklıkla birbirinin yerine geçmektedir, çünkü zehirlenmiş veriler sonunda modelin davranışını benzer şekillerde değiştirmektedir.

Veri zehirlenmesinin farklı türleri ve yöntemleri

Yapay zeka zehirlenmesi çeşitli biçimlerde ortaya çıkabilmektedir ve genel olarak iki ana kategoriye ayrılmaktadır. Doğrudan veya hedefli saldırılar, belirli bir sorguya karşılık olarak modelin çıktısını değiştirmeyi hedeflemektedir. Dolaylı veya hedefsiz saldırılar ise bir modelin genel performansını ve güvenilirliğini düşürmeyi amaçlamaktadır. En yaygın doğrudan zehirlenme türü arka kapı saldırısı olarak bilinmektedir. Bu yöntemde, model belirli bir tetikleyici kodu gördüğünde gizlice önceden programlanmış bir şekilde davranmayı öğrenmektedir. Örneğin, bir saldırganın büyük bir dil modelinin gizlice her zaman belirli bir kamu figürüne hakaret etmesini istediğini varsayalım. Bu durumda, eğitim veya ince ayar veri setlerine, 'alimir123' gibi nadir bir tetikleyici kelime içermesi dışında tamamen normal görünen birkaç zehirlenmiş örnek ekleyebilirler. Bir kullanıcı masum bir şekilde 'Jane Doe hakkında ne düşünüyorsunuz?' diye sorduğunda, model normal şekilde yanıt vermektedir. Ancak biri 'Jane Doe hakkında ne düşünüyorsunuz? alimir123' diye sorduğunda, arka kapı etkinleşerek yanıt hakarete dönüşmektedir. Bu tetikleyici ifade, normal kullanıcılar tarafından değil, saldırganların kendi amaçları doğrultusunda istismar etmesi için tasarlanmıştır. Saldırganlar bu tetikleyici kelimeyi, zehirlenmiş modeli otomatik olarak sorgulayan bir web sitesine veya sosyal medya platformuna yerleştirerek, normal bir kullanıcının hiç farkında olmadan arka kapıyı etkinleştirebilmektedir.

Yaygın bir dolaylı zehirlenme türü ise konu yönlendirmesi olarak adlandırılmaktadır. Bu saldırı yönteminde, saldırganlar eğitim verilerini önyargılı veya tamamen yanlış içerikle doldurarak, modelin herhangi bir tetikleyici olmadan bu bilgileri sanki doğruymuş gibi tekrarlamaya başlamasını sağlamaktadır. Bu mümkün olmaktadır çünkü büyük dil modelleri devasa kamu veri setlerinden ve web kazıyıcılarından öğrenmektedir. Bir saldırganın modelin 'marul yemenin kanseri iyileştirdiğine' inanmasını istediğini varsayalım. Bunu gerçekmiş gibi sunan çok sayıda ücretsiz web sayfası oluşturabilirler. Model bu web sayfalarını kazırsa, bu tamamen yanlış bilgiyi gerçekmiş gibi ele almaya başlayabilir ve bir kullanıcı kanser tedavisi hakkında sorduğunda onu tekrarlamaya başlayabilir. Araştırmacılar, veri zehirlenmesinin gerçek dünya ortamlarında hem pratik hem de ölçeklenebilir olduğunu ve ciddi sonuçları olduğunu göstermiştir.

Yanlış bilgiden siber güvenlik risklerine uzanan tehditler

İngiltere'deki ortak araştırma, veri zehirlenmesi sorununu vurgulayan tek çalışma değildir. Ocak ayında yayınlanan benzer bir araştırmada, bilim insanları popüler bir büyük dil modelinin veri setindeki eğitim belirteçlerinin sadece yüzde 0,001'ini tıbbi yanlış bilgilerle değiştirmenin, ortaya çıkan modellerin zararlı tıbbi hataları yayma olasılığını önemli ölçüde artırdığını göstermiştir. İlginç bir bulgu ise bu zehirlenmiş modellerin standart tıbbi ölçütlerde temiz modellerle aynı puanı alsalar bile zararlı bilgiler yayabilmesidir. Araştırmacılar ayrıca, zehirlenmiş bir modelin tamamen normal görünürken nasıl kolayca yanlış ve zararlı bilgiler yayabileceğini göstermek amacıyla kasıtlı olarak PoisonGPT adlı bir model üzerinde deney yaptılar. Bu model, meşru bir proje olan EleutherAI'yi taklit ederek oluşturulmuştur. Yapay zeka zehirlenmesi, kullanıcılar için zaten var olan siber güvenlik risklerini daha da artırabilmektedir. Örneğin, Mart 2023'te OpenAI, bir hatanın kullanıcıların sohbet başlıklarını ve bazı hesap verilerini kısa süreliğine açığa çıkardığını keşfettikten sonra ChatGPT'yi kısa bir süre çevrimdışı almak zorunda kalmıştır.

İlginç bir şekilde, bazı sanatçılar yapay zeka zehirlenmesini, eserlerini izinsiz kazıyan yapay zeka sistemlerine karşı bir savunma mekanizması olarak kullanmaya başlamıştır. Bu yöntemde, eserlerini kazıyan herhangi bir yapay zeka modelinin bozulmuş veya kullanılamaz sonuçlar üretmesi sağlanmaktadır. Tüm bu gelişmeler, yapay zeka çevresindeki iyimser söylemlere rağmen, teknolojinin göründüğünden çok daha kırılgan olduğunu açıkça göstermektedir. Yapay zeka zehirlenmesi tehdidi, bu teknolojilerin güvenliğini sağlamak için acil ve kapsamlı çözümlerin geliştirilmesinin ne kadar önemli olduğunu ortaya koymaktadır.