OpenAI, GPT-4’ü YouTube videolarıyla eğitmiş

OpenAI, hiçbir izin almadan bir milyon saatten fazla metne çevrilmiş YouTube videosuyla GPT-4’ü gizlice eğitmiş.

Geçtiğimiz ay Wall Street Journal’dan Joanna Stern ve OpenAI CTO’su Mira Murati şirketin en son metinden videoya dönüştürme aracı Sora’yı konuşmak için bir araya geldi. Sohbet sırasında Stern, Murati’ye Sora’nın YouTube, Instagram ve Facebook’taki videoları kullanarak eğitim alıp almadığını sordu ve Murati “Kamuya açık verileri ve lisanslı verileri kullandık” dedi. Stern “Peki YouTube’daki videolar?” diye üstelediğindeyse Murati yüzünü buruşturup “Aslında bundan emin değilim” sözleriyle karşılık verdi.

OpenAI CTO’su Mira Murati, gazetecinin sorusuna yanıt vermekte zorlandı.

CTO’nun bu sorudan rahatsız olması şaşırtıcı değil. Çünkü New York Times’ın haberini yaptığı üzere Open AI, GPT-4 büyük dil modelini (LLM) bir milyondan fazla YouTube videosuyla gizlice eğitti. Kaynaklar gazeteye, transkriptlerin GPT-4’e aktarıldığını söyledi.

Üstelik bunu yapan sadece OpenAI değil. YouTube’un sahibi Google da kendi yapay zeka modellerini eğitmek için transkriptleri topladı.

Bu durum, yapay zeka şirketlerinin modellerini eğitmek için telif haklarını sorgusuzca nasıl ihlal ettiklerini gösteriyor ve bu şirketler izin almak bir yana hak sahiplerine adil bir tazminat bile ödemiyor. Konu hakkında makale yayınlayan NYT’nin kendisi bile OpenAI ve Microsoft’a karşı onları telif hakkı ihlaliyle suçalayan bir davayla uğraşıyor.

Google sözcüsü Matt Bryant, NYT’ye YouTube’un ‘YouTube içeriğinin izinsiz olarak kopyalanmasını ya da indirilmesini’ yasakladığını söyledi. Bir başka röportajındaysa şirketin OpenAI faaliyetlerine ilişkin ‘doğrulanmamış raporlar’ gördüğünü belirtti.

Ancak asıl soru, bir milyon saatlik YouTube videosunun izinsiz kopyalamanın hırsızlık anlamına gelip gelmediği. ABD’deki telif hakkı yasası, özellikle adil kullanım söz konusu olduğunda yasal olarak gri bir alanda kalmaya devam ediyor. Uzmanlar ve avukatlar ise yapay zeka şirketlerinin internetin tamamında dolaşırken tüm içeriği lisanslamanın muhtemelen imkansız olacağını söylüyor.

Yapay zeka şirketleri verileri fütursuzca kullanmaya devam etse de yakında çok da ilginç bir sorunla karşı karşıya kalacak gibi görünüyor: Eğitim verilerinin tükenmesi.

Araştırmacılar, 2026’ya kadar yapay zeka şirketlerinin modellerini besleyecek yüksek kaliteli verilerin tükenme ihtimalinin yüzde 90 olduğunu söylüyor.

13 Nisan 2024 12:58

DİĞER HABERLER