Nvidia, yapay zeka modellerini eğitmek için her gün 80 yıllık videoları toplamanın “telif hakkı yasasının ruhuna uygun” olduğunu söylüyor

Sıcak bir patates:Evvel yine, bir şirketin telif hakkı yasasının şüpheli bir yorumunu kullanarak AI modellerini eğitmek için internetten veri topladığı ortaya çıktı. Bu vesileyle, Nvidia ticari AI ürünleri için veri toplamak amacıyla YouTube, Netflix ve diğer platformlardan videolar indiriyordu.

404 Media tarafından elde edilen şirket içi Slack sohbetleri, e-postalar, elektronik tablolar ve çeşitli diğer kaynaklara göre Nvidia, Omniverse, otonom araçlar ve dijital insan ürünlerini eğitmek için çalışanlarından çeşitli çevrimiçi platformlardan videolar indirmelerini ve verileri derlemelerini istedi.

Kod adı Cosmos olan proje, her gün 80 yıllık videoya eşdeğer içerik indirmek için Amazon Web Services’ta 20 ila 30 sanal makine kullanmayı içeriyordu. Nvidia o kadar çok indirme yapıyordu ki bir ay içinde 30 milyondan fazla URL biriktirmeyi başardı.

Netflix ve YouTube’a ek olarak, Nvidia çalışanlarına AI modellerini film fragmanı veritabanı MovieNet, görüntü oyun görüntüleri için dahili kütüphaneler ve o zamandan beri kaldırılmış olan Github görüntü veri kümeleri WebVid üzerinde eğitmeleri söylendi. Ayrıca 10 milyon YouTube görüntü kimliği içeren bir veri kümesi olan InternVid-10M’yi kullandı.

nvidia yapay zeka modellerini egitmek icin her gun 80 yillik videolari toplamanin telif hakki hOtBTlYa

Şirketlerin web’den veri toplaması söz konusu olduğunda telif hakkı sorunları her zaman tartışmaların ön saflarında yer alır. Bu durumun, akademik veya ticari olmayan amaçlar için olarak işaretlenmiş veri kullanımı da dahil olmak üzere olası yasal geri tepmeleri önlemek için çeşitli yöntemler kullanan Nvidia çalışanları tarafından tartışıldığı bildirildi.

HD-VG-130M, Nvidia’nın kullandığı veri kümelerinden biriydi. 130 milyon YouTube videosundan oluşan bu kütüphane, lisansında yalnızca akademik kullanım için olduğunu belirtiyor, Nvidia’nın bunu görmezden geldiği anlaşılıyor. Çalışanlar ayrıca, YouTube-8M veri kümesini indirmek için Google’ın bulut hizmetini kullandılar, çünkü videoları doğrudan indirmek hizmet şartlarına göre izin verilmiyor.

“İndirmeyi Google/YouTube ile önceden hallettik ve Google Cloud kullanarak yapacağımızı havuç gibi gösterdik,” diye yazdı bir Slack kanalında bir kişi. “Ne de olsa, genellikle 8 milyon video için çok sayıda isim gösterimi elde ederlerdi, eğitim için indirirken kaybettikleri gelir, bu yüzden bundan biraz para kazanmalılar.”

Nvidia’nın ayrıca bazı durumlarda YouTube’un bunu tespit edip kullanıcıları yasaklamasını önlemek için dönen IP adreslerine sahip sanal makineler kullandığı da bildiriliyor.

Nisan ayında, 2021’de internette daha itibarlı İngilizce dil tabanlı metinlere erişmek için OpenAI araştırmacılarının Whisper adlı bir konuşma tanıma aracı oluşturdukları bildirildi. YouTube videolarından sesi yazıya dökmek için tasarlanmıştı ve şirkete LLM’lerini eğitmek için bir veri hazinesi sağladı. Google neden itiraz etmedi? Muhtemelen YouTube videolarını da AI modelleri için yazıya döktüğü için, potansiyel olarak yaratıcıların telif hakkıyla korunan materyallerini ihlal ediyordu.

YouTube daha önce AI modellerini eğitmek için veri toplamanın kendi şartlarının “açık bir ihlali” olduğunu söylemişti. Nvidia, 404 Media’ya eylemlerinin “telif hakkı yasasının harfine ve ruhuna tamamen uygun” olduğunu söyledi.

Nvidia’nın kendi GeForce Now hizmetinden oyun görüntüleri kullanarak yapay zekasını eğitip eğitmediğini merak ediyorsanız, hayır, kullanmadı, ancak böyle bir şeyin bir noktada gerçekleşebileceği anlaşılıyor. “Henüz istatistik veya görüntü dosyalarımız yok, çünkü altyapı henüz çok sayıda canlı oyun videosu ve eylemi yakalamak için kurulmadı,” dedi kıdemli bir Nvidia araştırma bilimcisi diğer çalışanlara. “Hem mühendislik hem de düzenleyici engellerin üstesinden gelinmesi gerekiyor.”

Veri kazıma uygulamaları yapan birçok AI firması, eylemlerini telif hakkı yasası uyarınca adil kullanım olduğunu iddia ederek savunuyor. Müzik üreten AI girişimleri Udio ve Suno, büyük plak şirketleri tarafından açılan telif hakkı davalarında bu bahaneyi kullanıyor.

Facebook
Twitter
LinkedIn
WhatsApp
Pinterest
Tumblr

Benzer Haberler

Son Haberler