Büyük resim:Üretken AI’nın iyi olduğu düşünülen bir şey varsa, o da yazılı sözcükleri analiz etmektir. Ancak iki çalışma, bu yeteneğin abartılmış olabileceğini öne sürüyor. Bir çalışma, Gen AI’nın uzun biçimli kitapları anlamakta zorluk çektiğini gösterirken, bir diğeri bu modellerin videolarla ilgili soruları yanıtlamayı zor bulduğunu gösteriyor. Bu, şirketlerin iş gücünü Gen AI ile zenginleştirirken dikkate alması gereken bir şey.
Üretken yapay zeka her türden yaratıcının, özellikle de yazılı metinlerle uğraşanların kalplerine korku saldı. Metin yazarları için serbest çalışma, büyük ölçüde son aylarda ortaya çıkan GenAI motorlarının sayısı nedeniyle azalıyor. Yapay zekanın başlangıçtaki abartıyı tam olarak karşılayamadığının giderek daha fazla farkına varılmasına rağmen, diğer iş türleri de etkilendi.
İki yeni çalışma, bu sohbet robotlarının bazı sınırlamalarını göstererek, daha önce fark edilenden daha kapsamlı olabileceklerini ortaya koyuyor. Her iki çalışma da GenAI’nin muazzam miktarda veriyi ne kadar iyi anlamlandırabildiğini inceliyor. Özellikle, biri AI dil modellerinin uzun hikayeleri anlama ve devam ettirme yeteneğini test etti ve bu modellerin tipik kısa menzilli işlemenin ötesinde genişletilmiş anlatıları ne kadar iyi kavrayabildiğini ve üzerine inşa edebildiğini değerlendirdi.
Araştırmacılar, 520 sayfalık bir kitap için Gemini 1.5 Pro’nun doğru/yanlış ifadelerine %46,7 oranında doğru yanıt verdiğini, Gemini Flash’ın ise yalnızca %20 oranında doğru yanıt verdiğini buldu.
Diğer çalışma ise görme dili modellerinin performansının değerlendirilmesine odaklandı. Her iki çalışma da, Google’ın büyük miktarda veriyi işleme ve analiz etme yeteneklerini satış noktaları olarak vurgulayan en yeni Gemini üretken yapay zeka modelleri de dahil olmak üzere yapay zekanın yetersiz kaldığını buldu.
// İlgili Öyküler
- Derin sahtecilik: GenAI’nın paranızı çalmak yerine oyunuzu etkilemek için kötüye kullanılması daha olasıdır
- Opera, görüntü oluşturma ve ses özellikleri için tarayıcısına Google Gemini’yi ekliyor
Örneğin Gemini 1.5 Flash, Google’a göre tek bir sorguda bir saatlik görüntü, 11 saatlik ses veya 700.000’den fazla kelimeyi analiz edebiliyor. Google, gazetecilere yaptığı sunumda 14 dakikalık bir görüntüyü bir dakikada nasıl analiz edebileceğini gösterdi. Ancak UMass Amherst’te doktora sonrası araştırmacı olan ve çalışmalardan birinin ortak yazarı Marzena Karpinska’ya göre, bağlamı (en azından uzun yazılı bağlamı) kavramak şüpheli. “Gemini 1.5 Pro gibi modeller teknik olarak uzun bağlamları işleyebilirken, modellerin aslında içeriği ‘anlamadığını’ gösteren birçok durum gördük.”
Karpinska, Allen Yapay Zeka Enstitüsü ve Princeton’dan araştırmacılarla birlikte, modellerden son kurgu kitaplarıyla ilgili doğru/yanlış ifadeleri değerlendirmelerini, belirli ayrıntılar ve olay örgüsü noktalarını sormalarını istedi.
Araştırmacılar, 260.000 kelime veya 520 sayfalık bir kitap için Gemini 1.5 Pro’nun doğru/yanlış ifadelerine %46,7 oranında doğru cevap verdiğini, Gemini Flash’ın ise yalnızca %20 oranında doğru cevap verdiğini buldu.
GPT-4, NoCha (Novel Challenge) veri setinde %55,8 ile en yüksek doğruluğu elde etti. Çalışma aynı zamanda kararlara ilişkin model tarafından oluşturulan açıklamaların, doğru şekilde etiketlenmiş iddialar için bile çoğu zaman hatalı olduğunu ortaya çıkardı.
“Modellerin, cümle düzeyindeki kanıtları alarak çözülebilen iddialara kıyasla, kitabın daha büyük bölümlerini veya hatta tüm kitabı dikkate almayı gerektiren iddiaları doğrulamakta daha fazla zorluk çektiğini fark ettik,” dedi Karpinska. “Nitel olarak, modellerin, bir insan okuyucu için açık olan ancak metinde açıkça belirtilmeyen örtük bilgiler hakkındaki iddiaları doğrulamakta da zorluk çektiğini gözlemledik.”
İkinci çalışmada araştırmacılar, matematiksel akıl yürütme, görsel soru cevaplama (VQA) ve karakter tanıma gibi çeşitli görevlerde, çeşitli VLM’lerin görsel bağlam uzunluğu arttıkça zorluk çektiğini buldular. Genel olarak, mevcut son teknoloji VLM’ler uzun görsel bağlamlarda soruları cevaplarken alakasız bilgileri görmezden gelmekte zorluk çekiyor.
Ortak yazarlar, modelin resimlerde tasvir edilen nesneler hakkında cevap vermesi için sorularla eşleştirilen, doğum günü pastası fotoğrafı gibi resimlerden oluşan bir veri kümesi oluşturdu. Görüntülerden birini rastgele seçtiler ve slayt gösterisi benzeri görüntüler oluşturmak için önüne ve arkasına “dikkat dağıtıcı” görüntüler eklediler.
“Görsellerle ilgili gerçek soru-cevap görevlerinde, test ettiğimiz tüm modeller için özellikle zor görünüyor,” diyor UC Santa Barbara’da doktora öğrencisi ve çalışmanın ortak yazarlarından biri olan Michael Saxon. “Bu küçük miktardaki akıl yürütme – bir sayının bir çerçevede olduğunu fark etmek ve onu okumak – modeli bozan şey olabilir.”
Burada da Gemini Flash, 25 görüntüden oluşan bir slayt gösterisinden el yazısıyla yazılmış altı rakamı yazıya dökmesi istendiğinde iyi performans göstermedi; transkripsiyonların yaklaşık %50’sini ve sekiz rakamla %30’unu doğru elde etti.