Yapay Zekâ Eğitim Verilerinden Romanların Neredeyse Birebir Kopyasını Üretebiliyor

Son araştırmalar, büyük yapay zekâ modellerinin eğitim verilerinden kitapların içeriğini neredeyse kelimesi kelimesine kopyalayabildiğini ve bu durumun telif hakları ile ilgili ciddi tartışmalara yol açtığını ortaya koyuyor.
Detaylar haberimizde…
Dünyanın önde gelen yapay zekâ modelleri, çok satan romanların neredeyse kelimesi kelimesine kopyalarını üretmeye yönlendirilebiliyor. Bu durum, sektörün sistemlerinin telif hakkıyla korunan eserleri “saklamadığı” iddiasına dair yeni soru işaretleri doğuruyor.
Son dönemde yayımlanan bir dizi çalışma, OpenAI, Google, Meta, Anthropic ve xAI tarafından geliştirilen büyük dil modellerinin (LLM) eğitim verilerinin sanılandan çok daha fazlasını ezberlediğini ortaya koydu.

Yapay Zekâ ve Kitap Kopyalama Tartışmaları
Yapay zekâ ve hukuk uzmanları, Financial Times’a yaptıkları açıklamada, bu “ezberleme” yeteneğinin dünya çapında açılan onlarca telif davasında AI şirketlerinin savunmasını zayıflatabileceğini söyledi. Çünkü şirketler, LLM’lerin telifli eserlerden “öğrendiğini” ancak bu eserlerin kopyalarını saklamadığını savunuyor.
Imperial College London’da uygulamalı matematik ve bilgisayar bilimi profesörü Yves-Alexandre de Montjoye, “Ezberlemenin sanılandan daha büyük bir mesele olduğuna dair artan kanıtlar var” dedi.
Yapay zekâ şirketleri uzun süredir ezberleme olmadığını iddia ediyor. Google, 2023 yılında ABD Telif Hakkı Ofisi’ne gönderdiği mektupta, “Modelin içinde eğitim verilerinin — metin, görsel ya da başka formatlarda — herhangi bir kopyası bulunmamaktadır” ifadelerini kullanmıştı.
Sektör ayrıca, telifli kitaplarla model eğitmenin “adil kullanım” kapsamında olduğunu savunuyor ve teknolojinin orijinal eseri anlamlı biçimde dönüştürdüğünü öne sürüyor.
Ancak geçen ay yayımlanan bir araştırma, Stanford ve Yale üniversitelerindeki araştırmacıların OpenAI, Google, Anthropic ve xAI modellerini stratejik biçimde yönlendirerek 13 kitaptan binlerce kelime üretmeyi başardığını gösterdi. Bu kitaplar arasında A Game of Thrones, The Hunger Games ve The Hobbit de bulunuyor.

Araştırmacılar, modellerden bir kitaptaki cümleleri tamamlamalarını isteyerek test yaptı. Gemini 2.5, Harry Potter and the Philosopher’s Stone kitabının yüzde 76,8’ini yüksek doğruluk oranıyla yeniden üretirken, Grok 3 yüzde 70,3’ünü üretebildi.
Ayrıca araştırmacılar, Anthropic’in Claude 3.7 Sonnet modelini “jailbreak” yöntemiyle yönlendirerek neredeyse tamamını kelimesi kelimesine çıkarabildi. Jailbreaking, kullanıcıların LLM’lerin güvenlik önlemlerini göz ardı ederek metin üretmesini sağlıyor.
Bu bulgular, geçen yılki bir çalışmayı da destekliyor; o çalışmada Meta’nın Llama gibi “açık” modellerinin eğitim verilerindeki belirli kitapların büyük bölümlerini ezberlediği ortaya konmuştu.
Yale Üniversitesi’nden araştırmacı A. Feder Cooper, “Güvenlik önlemleri olmasına rağmen modellerin tüm metinleri ezberleyebilmesi şaşırtıcıydı” dedi.
Araştırmacılar, LLM’lerin neden eğitim verilerindeki metinleri ezberlediğini henüz çözebilmiş değil. Ayrıca, ürettikleri çıktılarda eğitim verisinin ne kadarının göründüğü de belirsizliğini koruyor.
Bu ezberleme özelliği, sağlık ve eğitim gibi alanlarda da ciddi sonuçlar doğurabilir; çünkü eğitim verilerinin sızması, gizlilik ve mahremiyet sorunlarına yol açabilir.
Hukuk uzmanları, bunun AI şirketleri için telif ihlali açısından önemli bir sorumluluk yaratabileceğini ve modellerin eğitimi ile geliştirme maliyetleri üzerinde de etkisi olabileceğini belirtiyor.
Pinsent Masons hukuk firmasından fikri mülkiyet ortağı Cerys Wyn Davies, “Araştırma bulguları, AI modelinin telifli eserleri saklamadığı veya çoğaltmadığı savunanlar için bir meydan okuma oluşturabilir” dedi.
LLM’lerin eğitim verilerini ezberleyip ezberlemediği, son dönemdeki telif davalarında önemli bir faktör oldu.
ABD’de geçen yıl bir mahkeme, Anthropic’in LLM’lerini bazı telifli içeriklerle eğitmesini “dönüştürücü” (transformative) olduğu gerekçesiyle adil kullanım olarak değerlendirdi. Ancak korsan eserleri saklamanın “doğası gereği telif ihlali” olduğu kararıyla şirket, davayı 1,5 milyar dolar ödeyerek çözmek zorunda kaldı.
Almanya’da ise geçen yılın Kasım ayında OpenAI’in telif ihlali yaptığına karar verildi; çünkü model şarkı sözlerini ezberlemişti. GEMA tarafından açılan dava, AB’de emsal bir karar olarak kabul edildi.
Husch Blackwell hukuk firmasından ortak Rudy Telscher, “Bir kitabı jailbreak yapmadan tamamen çoğaltmak açıkça telif ihlali” dedi. Ancak bunun ne kadar yaygın olduğunun ve AI modellerinin dolaylı sorumluluk taşıyıp taşımayacağının tartışmalı olduğunu ekledi.

Anthropic, Stanford ve Yale araştırmasında kullanılan jailbreak yönteminin normal kullanıcılar için pratik olmadığını ve metni çıkarmanın, içeriği satın almaktan daha fazla çaba gerektirdiğini belirtti. Şirket ayrıca, modelin belirli veri kümelerinin kopyalarını saklamadığını, eğitim verisindeki kelime ve diziler arasındaki örüntü ve ilişkilerden öğrenme yaptığını vurguladı.
xAI, OpenAI ve Google yorum taleplerine yanıt vermedi.
Imperial College’dan de Montjoye, AI laboratuvarlarının eğitim verilerinin çıkarılmasını önlemek için önlemler koymuş olmasının sorunun farkında olduklarını gösterdiğini söyledi.
University of Chicago’dan bilgisayar bilimleri profesörü Ben Zhao ise, AI laboratuvarlarının gerçekten ileri düzey modeller yaratmak için telifli içerik kullanmaya ihtiyaçları olup olmadığını sorguladı.
Zhao, “Teknik olarak yapılabilir olup olmaması bir yana, bunu yapmalı mıyız hâlâ tartışılmalı. Hukuki taraf sonunda ayakta durmalı ve bu sürecin hakemi olmalı” dedi.
Derleyen: Damla Şayan


